L'orchestrateur

Ni défiance,ni tout-IA.Orchestrez.

Le frontier planifie. Votre machine exécute. Vous décidez. L'exécution reste locale — et la qualité reste au sommet. Même ticket, même repo gelé, 81 tests : tout est prouvé.

Voir la preuve →Simuler mon équipe →

◎ Orchestration · liveseed v0 · 81 tests gelés

☁ Frontierle plan

Local 🖥l'exécution

◎ Vousdécidez · tracez

✓ livré80/81

Qualité (vs frontier 81)

Coût cloud / feature — le plan

Exécution du code

L'ablation — mesuré, pas asséné

Aucun levier ne suffit seul.
Les trois ensemble = quasi-frontier.

Même seed, mêmes 81 tests gelés, même modèle local (Qwen3.6). On retire un ingrédient à la fois. Le pointillé rouge = le plancher : l'app de départ non modifiée (6/81).

Le banc d'essai — le même test pour tous

Le test : construire un outil de
priorisation de tickets.

Chaque stratégie reçoit le même ticket DSI sur le même repo gelé : transformer « TriageDesk » — un embryon qui ne fait que créer des tickets à la main — en vrai poste de triage. Une feature multi-fichiers réaliste, ce qu'une équipe plateforme livrerait en un sprint.

01 · Intake

4 canaux (manuel, Slack, e-mail, webhook) → un ticket normalisé

→

02 · Suggestion IA

catégorie + priorité + score de confiance (déterministe, règles)

→

03 · Décision humaine

l'agent valide ou override (motif obligatoire) — tout est audité

→

04 · Pilotage

SLA, métriques, export CSV masqué RGPD

Le correcteur — 81 tests écrits par nous et gelés (tag git v0, hashés avant tout run) — vérifie chaque capacité. Aucun modèle ne note sa propre copie. Les 8 zones testées :

11 tâches atomiques · 81 tests · ~430 lignes à produire sur 9–11 fichiers. Méta : l'outil lui-même incarne la thèse — l'IA suggère, l'humain décide.

Le comparateur — 8 stratégies, mêmes règles

Creusez les différences.

Cliquez une ligne pour dérouler son exécution et voir la preuve, en bas.

La preuve — …

Le dérouler, par catégorie.

Tests gelés par zone

Le dérouler — étapes du pipeline

Coût par étape

Le code produit (diff vs v0)

La galerie — les apps produites, en vrai

Plan → outil → UX :
la même appli, par chaque IA.

2ᵉ ticket donné à chaque modèle : « construis la console TriageDesk ». Voici les interfaces réelles produites (captures, mêmes données) — puis, sous le capot, le triage comparé.

① L'interface produite par chaque IA captures réelles · cliquez pour ouvrir l'app

② Sous le capot — le triage comparé à la référence 81/81 vrai code exécuté

On exécute le vrai code de chaque stratégie sur les 6 mêmes tickets. ✓ = identique à la référence (app 81/81) · ✗ = diverge. Les apps qui ne compilent pas ne produisent rien.

Comment ces interfaces ont été produites

Chaque modèle a écrit sa propre UI — pas nous, pas Opus pour tous. 1 prompt identique (« construis la console TriageDesk en un index.html autonome »), mêmes données embarquées. Opus & GPT-5.5 via API ; Qwen3.6 & Qwen3-Coder en 100% local (gratuit, 0 cloud).
Génération one-shot (un seul fichier autoportant), puis capture + l'app réelle est ouvrable (clic). Reproductible : apps/cli/src/ux-run.ts.
Honnêteté : cette phase est jugée visuellement — ce n'est PAS le même protocole que le benchmark backend (plan + harnais + 81 tests gelés). Pas de note chiffrée sur l'UI ; N=1 par modèle. ① = visuel · ② = code réel testé.
Le triage (②) : code réel importé de runs/<stratégie>/workspace/src, déterministe.

Dimension oubliée — harnais × stack de serving

Le bon agent ne suffit pas : il faut un serveur compatible.

Cline et Hermes Agent sont d'excellents agents, mais ils exigent des tool_calls natifs. Le serveur local le plus simple (mlx_lm.server) n'en émet pas → seul Aider (qui parse du texte) pilote le local tel quel. Ollama ou LM Studio les débloquent.

Le simulateur — où le local devient rentable

Local ou cloud ? Réglez votre cas,
le verdict flashe.

Prix certains, sourcés au 09/06/2026 (API Opus/GPT, abonnements Claude, Mac, électricité). mesuré les coûts/feature · projeté la vitesse (∝ bande passante).

Régime d'usage

Matériel local

Taille d'équipe 8 devs

Features / dev / mois 8

Pic — builds en parallèle 2

Conclusion — devenir orchestrateur

Ni peur, ni soumission. De la maîtrise.

La souveraineté quasi-frontier est atteignable aujourd'hui — à condition d'aligner les trois leviers : un plan frontier précis, un harnais mûr (Aider/Cline), un modèle local capable (~35B). Le frontier porte l'intelligence du plan ; votre machine exécute (gratuit, local) ; vous décidez et gardez la traçabilité.

Ce qui est prouvé

80/81 en local (Qwen3.6 + Aider + plan Opus) ≈ frontier 81/81. $0.32 de cloud (le plan seul). Le code écrit/exécuté 100% en local.

Les limites, honnêtement

Plus lent (~27 min M4 ; ~4 min M3 Ultra). Il faut un ~35B + le bon serveur. Le plan reste un appel cloud (≠ 100% souverain). La rentabilité $ est un ordre de grandeur, pas un verdict ferme : elle dépend du volume, de la concurrence (1 build ≈ 20 Go RAM), des limites d'abonnement et des coûts d'exploitation non inclus (admin, panne). Mesures N=1.

Le geste d'orchestrateur

Planifier avec le frontier, exécuter en local, vérifier par des tests gelés, garder la trace. L'humain n'est pas remplacé : il dirige.