L'orchestrateur

Ni défiance,ni tout-IA.Orchestrez.

Le frontier planifie. Votre machine exécute. Vous décidez. L'exécution reste locale — et la qualité reste au sommet. Même ticket, même repo gelé, 81 tests : tout est prouvé.

◎ Orchestration · liveseed v0 · 81 tests gelés
☁ Frontierle plan
Local 🖥l'exécution
◎ Vousdécidez · tracez
✓ livré80/81
Qualité (vs frontier 81)
0
Coût cloud / feature — le plan
0
Exécution du code
0
L'ablation — mesuré, pas asséné

Aucun levier ne suffit seul.
Les trois ensemble = quasi-frontier.

Même seed, mêmes 81 tests gelés, même modèle local (Qwen3.6). On retire un ingrédient à la fois. Le pointillé rouge = le plancher : l'app de départ non modifiée (6/81).

Le banc d'essai — le même test pour tous

Le test : construire un outil de
priorisation de tickets.

Chaque stratégie reçoit le même ticket DSI sur le même repo gelé : transformer « TriageDesk » — un embryon qui ne fait que créer des tickets à la main — en vrai poste de triage. Une feature multi-fichiers réaliste, ce qu'une équipe plateforme livrerait en un sprint.

01 · Intake
4 canaux (manuel, Slack, e-mail, webhook) → un ticket normalisé
02 · Suggestion IA
catégorie + priorité + score de confiance (déterministe, règles)
03 · Décision humaine
l'agent valide ou override (motif obligatoire) — tout est audité
04 · Pilotage
SLA, métriques, export CSV masqué RGPD

Le correcteur — 81 tests écrits par nous et gelés (tag git v0, hashés avant tout run) — vérifie chaque capacité. Aucun modèle ne note sa propre copie. Les 8 zones testées :

11 tâches atomiques · 81 tests · ~430 lignes à produire sur 9–11 fichiers. Méta : l'outil lui-même incarne la thèse — l'IA suggère, l'humain décide.

Le comparateur — 8 stratégies, mêmes règles

Creusez les différences.

Cliquez une ligne pour dérouler son exécution et voir la preuve, en bas.

La preuve —

Le dérouler, par catégorie.

Tests gelés par zone

Le dérouler — étapes du pipeline

Coût par étape

Le code produit (diff vs v0)

La galerie — les apps produites, en vrai

Plan → outil → UX :
la même appli, par chaque IA.

2ᵉ ticket donné à chaque modèle : « construis la console TriageDesk ». Voici les interfaces réelles produites (captures, mêmes données) — puis, sous le capot, le triage comparé.

① L'interface produite par chaque IA captures réelles · cliquez pour ouvrir l'app

② Sous le capot — le triage comparé à la référence 81/81 vrai code exécuté

On exécute le vrai code de chaque stratégie sur les 6 mêmes tickets. = identique à la référence (app 81/81) · = diverge. Les apps qui ne compilent pas ne produisent rien.

Comment ces interfaces ont été produites
Dimension oubliée — harnais × stack de serving

Le bon agent ne suffit pas : il faut un serveur compatible.

Cline et Hermes Agent sont d'excellents agents, mais ils exigent des tool_calls natifs. Le serveur local le plus simple (mlx_lm.server) n'en émet pas → seul Aider (qui parse du texte) pilote le local tel quel. Ollama ou LM Studio les débloquent.

Le simulateur — où le local devient rentable

Local ou cloud ? Réglez votre cas,
le verdict flashe.

Prix certains, sourcés au 09/06/2026 (API Opus/GPT, abonnements Claude, Mac, électricité). mesuré les coûts/feature · projeté la vitesse (∝ bande passante).

Conclusion — devenir orchestrateur

Ni peur, ni soumission. De la maîtrise.

La souveraineté quasi-frontier est atteignable aujourd'hui — à condition d'aligner les trois leviers : un plan frontier précis, un harnais mûr (Aider/Cline), un modèle local capable (~35B). Le frontier porte l'intelligence du plan ; votre machine exécute (gratuit, local) ; vous décidez et gardez la traçabilité.

Ce qui est prouvé

80/81 en local (Qwen3.6 + Aider + plan Opus) ≈ frontier 81/81. $0.32 de cloud (le plan seul). Le code écrit/exécuté 100% en local.

Les limites, honnêtement

Plus lent (~27 min M4 ; ~4 min M3 Ultra). Il faut un ~35B + le bon serveur. Le plan reste un appel cloud (≠ 100% souverain). La rentabilité $ est un ordre de grandeur, pas un verdict ferme : elle dépend du volume, de la concurrence (1 build ≈ 20 Go RAM), des limites d'abonnement et des coûts d'exploitation non inclus (admin, panne). Mesures N=1.

Le geste d'orchestrateur

Planifier avec le frontier, exécuter en local, vérifier par des tests gelés, garder la trace. L'humain n'est pas remplacé : il dirige.