La startup d'IA Galileo Technologies classe Claude 3.5 Sonnet, Gemini de Google et Qwen2-72B-Instruct d'Alibaba en tête du benchmark Hallucination Index.
La startup d'intelligence artificielle Galileo Technologies a classé très haut les modèles de langage de milieu de gamme et open source de grande taille dans un nouveau test de référence, l'Hallucination Index. L'indice de référence, qui évalue 22 principaux modèles d'IA générative, a mesuré leur précision sur trois collections de tâches. Le Claude 3.5 Sonnet d'Anthropic est arrivé en tête du classement, tandis que le Gemini 1.5 Flash de Google a obtenu les meilleurs résultats en termes de coût. Le Qwen2-72B-Instruct d'Alibaba était le modèle open source le plus performant.
July 29, 2024
3 Articles