Un système open source minimaliste propulse Poetiq devant Google sur un benchmark réputé presque imprenable.
Tl;dr
- Poetiq, une start-up de six personnes, surprend le secteur en surpassant Google sur le test ARC-AGI-2, réputé pour mesurer un raisonnement proche de l’humain.
- Son système repose sur un méta-LLM qui orchestre des modèles existants, sans retraining, avec un coût réduit et des performances largement supérieures.
- Cette avancée laisse entrevoir une nouvelle voie vers l’AGI, où l’optimisation intelligente prime sur la puissance brute, même si les résultats doivent encore être répliqués.
Un outsider secoue le secteur de l’IA
Depuis plusieurs mois, le modèle Gemini 3 de Google dominait sans partage le classement LMArena, une plateforme où des milliers d’utilisateurs jugent les performances d’IA en confrontation directe. Pourtant, une équipe de seulement six personnes, réunie au sein de la start-up Poetiq, vient de bouleverser cet équilibre en s’imposant sur le test semi-privé ARC-AGI-2, considéré comme l’un des plus coriaces du moment dans le domaine du raisonnement automatisé.
L’ingéniosité plutôt que la puissance brute
Contrairement à ce que l’on pourrait imaginer, ce n’est pas la conception d’un nouveau modèle géant qui a permis cette avancée. Les ingénieurs de Poetiq ont opté pour une approche radicalement différente : orchestrer les capacités de modèles déjà existants à travers un « méta-système ». Cette architecture sert d’IA chef d’orchestre, supervisant, critiquant et raffinant les réponses générées par un LLM standard — ici, Gemini 3 Pro. Le processus s’appuie sur une boucle d’optimisation serrée : générer, critiquer, affiner puis vérifier chaque réponse.
Là où cette solution se démarque particulièrement, c’est par :
- Aucune phase de retraining nécessaire ; adaptation rapide à tout modèle.
- Simplicité et accessibilité grâce à l’utilisation exclusive de LLM grand public, sans réglages spécifiques coûteux.
- Coût divisé par plus de deux : chaque tâche est traitée pour environ 30 dollars contre près de 77 dollars chez Google.
La solution est également open source et s’auto-évalue avant chaque rendu final.
Pourquoi ARC-AGI-2 change la donne ?
À la différence d’autres tests centrés sur des compétences précises comme le calcul ou la programmation, ARC-AGI-2, conçu par le chercheur en IA François Chollet, évalue des aptitudes proches du raisonnement humain : reconnaissance de motifs abstraits, généralisation et analogie. Rares sont les systèmes qui y brillent ; il y a six mois encore, la plupart plafonnaient sous les 5%. Or, franchir aujourd’hui les 54% – comme l’a fait Poetiq – semblait relever du fantasme même parmi les experts.
Notons toutefois que ce score record concerne uniquement le jeu de test semi-privé et reste à confirmer via des réplications indépendantes.
Nouvelles perspectives pour l’intelligence artificielle ?
Ce succès éclaire une tendance émergente : dans la quête d’intelligence artificielle générale (AGI), l’innovation passe peut-être moins par l’empilement démesuré de ressources que par des stratégies d’orchestration fines et intelligentes. Si cette approche se confirme au-delà des benchmarks – dans la planification, la recherche ou la prise de décision réelle –, elle pourrait rebattre durablement les cartes du secteur. En rendant public son outil, Poetiq invite désormais toute la communauté à tester et challenger ses résultats. Une petite équipe démontre ainsi qu’il n’est plus nécessaire d’être un géant pour s’imposer dans l’arène.