Découvrez comment la nouvelle version de Grok par xAI révolutionne le traitement d’images !
Grok-1.5V est le premier modèle d'intelligence artificielle multimodale de première génération de l'entreprise. Cela signifie-t-il que nous pouvons nous attendre à des versions plus avancées à l’avenir?
Tl;dr
- xAI présente la première version de Grok capable de traiter des informations visuelles.
- Grok-1.5V traduit des images comme des graphiques ou des photos en texte ou en code.
- Un benchmark, RealWorldQA, a été publié pour évaluer les modèles d’IA.
- Grok-1.5V aurait obtenu le meilleur score lors de tests avec RealWorldQA.
xAI révolutionne l’IA avec Grok-1.5V
Le rival d’OpenAI, xAI, a récemment annoncé la première version de son modèle d’IA multimodal, Grok, capable de traiter les informations visuelles. Nom de code : Grok-1.5V.
Plus qu’un simple traitement de texte
Les capacités de Grok-1.5V vont bien au-delà de la simple lecture de texte. Elles incluent la possibilité de traiter des “documents, des diagrammes, des graphiques, des captures d’écran et des photographies”. Les exemples d’applications fournies par xAI sont fascinants : vous pouvez montrer à Grok une photo d’un diagramme de flux et lui demander de le traduire en code Python, lui demander d’écrire une histoire basée sur un dessin ou même de lui expliquer un mème que vous ne comprenez pas.
Un déploiement prévu pour bientôt
Cette nouvelle version arrive seulement quelques semaines après que l’entreprise a dévoilé Grok-1.5, un modèle conçu pour être meilleur en codage et en mathématiques que son prédécesseur. xAI a annoncé que ses testeurs et utilisateurs pourront bientôt profiter des capacités de Grok-1.5V, sans toutefois donner de calendrier précis pour son déploiement.
Un benchmark pour évaluer les modèles d’IA
En parallèle de l’introduction de Grok-1.5V, xAI a également publié un benchmark appelé RealWorldQA. Composé de 700 images, il permet d’évaluer les modèles d’IA. Chaque item est accompagné de questions et de réponses faciles à vérifier, mais qui peuvent poser problème à des modèles multimodaux comme Grok. Selon xAI, Grok-1.5V aurait obtenu le meilleur score lors des tests effectués avec RealWorldQA, surpassant même les concurrents comme GPT-4V d’OpenAI et Google Gemini Pro 1.5.
L’avis de la rédaction
L’arrivée de Grok-1.5V marque une étape importante dans l’évolution de l’IA. En intégrant le traitement d’images, xAI ouvre de nouvelles perspectives pour l’IA et son utilisation dans notre quotidien. Le futur de l’IA est prometteur, et nous sommes impatients de découvrir les prochaines avancées dans ce domaine.