Ni défiance,ni tout-IA.Orchestrez.
Le frontier planifie. Votre machine exécute. Vous décidez. L'exécution reste locale — et la qualité reste au sommet. Même ticket, même repo gelé, 81 tests : tout est prouvé.
Le frontier planifie. Votre machine exécute. Vous décidez. L'exécution reste locale — et la qualité reste au sommet. Même ticket, même repo gelé, 81 tests : tout est prouvé.
Même seed, mêmes 81 tests gelés, même modèle local (Qwen3.6). On retire un ingrédient à la fois. Le pointillé rouge = le plancher : l'app de départ non modifiée (6/81).
Chaque stratégie reçoit le même ticket DSI sur le même repo gelé : transformer « TriageDesk » — un embryon qui ne fait que créer des tickets à la main — en vrai poste de triage. Une feature multi-fichiers réaliste, ce qu'une équipe plateforme livrerait en un sprint.
Le correcteur — 81 tests écrits par nous et gelés (tag git v0, hashés avant tout run) — vérifie chaque capacité. Aucun modèle ne note sa propre copie. Les 8 zones testées :
11 tâches atomiques · 81 tests · ~430 lignes à produire sur 9–11 fichiers. Méta : l'outil lui-même incarne la thèse — l'IA suggère, l'humain décide.
Cliquez une ligne pour dérouler son exécution et voir la preuve, en bas.
2ᵉ ticket donné à chaque modèle : « construis la console TriageDesk ». Voici les interfaces réelles produites (captures, mêmes données) — puis, sous le capot, le triage comparé.
On exécute le vrai code de chaque stratégie sur les 6 mêmes tickets. ✓ = identique à la référence (app 81/81) · ✗ = diverge. Les apps qui ne compilent pas ne produisent rien.
Cline et Hermes Agent sont d'excellents agents, mais ils exigent des tool_calls natifs. Le serveur local le plus simple (mlx_lm.server) n'en émet pas → seul Aider (qui parse du texte) pilote le local tel quel. Ollama ou LM Studio les débloquent.
Prix certains, sourcés au 09/06/2026 (API Opus/GPT, abonnements Claude, Mac, électricité). mesuré les coûts/feature · projeté la vitesse (∝ bande passante).
La souveraineté quasi-frontier est atteignable aujourd'hui — à condition d'aligner les trois leviers : un plan frontier précis, un harnais mûr (Aider/Cline), un modèle local capable (~35B). Le frontier porte l'intelligence du plan ; votre machine exécute (gratuit, local) ; vous décidez et gardez la traçabilité.
80/81 en local (Qwen3.6 + Aider + plan Opus) ≈ frontier 81/81. $0.32 de cloud (le plan seul). Le code écrit/exécuté 100% en local.
Plus lent (~27 min M4 ; ~4 min M3 Ultra). Il faut un ~35B + le bon serveur. Le plan reste un appel cloud (≠ 100% souverain). La rentabilité $ est un ordre de grandeur, pas un verdict ferme : elle dépend du volume, de la concurrence (1 build ≈ 20 Go RAM), des limites d'abonnement et des coûts d'exploitation non inclus (admin, panne). Mesures N=1.
Planifier avec le frontier, exécuter en local, vérifier par des tests gelés, garder la trace. L'humain n'est pas remplacé : il dirige.