Le mythe du benchmark crowdsourcé : les limites de cette approche pour évaluer l’IA

Le mythe du benchmark crowdsourcé : les limites de cette approche pour évaluer l'IA

Le mythe du benchmark crowdsourcé : les limites de cette approche pour évaluer l’IA

Dans le monde de l’Intelligence Artificielle (IA), le benchmark crowdsourcé est une méthode d’évaluation largement utilisée. Il est couramment employé par des plateformes comme Chatbot Arena et attire de plus en plus d’entreprises qui souhaitent tester leurs derniers modèles d’IA. Cependant, la fiabilité des résultats obtenus par ce biais est remise en question. Alors, quels sont les problèmes inhérents à cette méthode d’évaluation ? Explorons ensemble les méandres de la question.

Principe de fonctionnement du benchmark crowdsourcé

Le benchmark crowdsourcé fonctionne selon un processus relativement simple. Il présente à un utilisateur deux modèles anonymes, lui pose une question et lui demande ensuite laquelle des deux réponses il préfère. Si un chatbot obtient un bon score, il est souvent présenté comme une preuve de progrès spectaculaire, ce qui accroît sa notoriété, attire les investisseurs et rassure les clients. Des géants de l’industrie tels qu’OpenAI, Google ou Meta utilisent ces plateformes pour affiner leurs outils d’IA et valider leurs avancées.

Un modèle d’évaluation problématique

Emily Bender, professeure de linguistique à l’Université de Washington et co-auteure du livre The AI Con, souligne que cette méthode d’évaluation est loin d’être idéale. Selon elle, un véritable benchmark devrait être basé sur une base scientifique solide, mesurer un concept bien défini et prouver que l’évaluation reflète réellement les performances ciblées. Elle souligne que le Chatbot Arena n’a jamais démontré que les préférences exprimées par les utilisateurs correspondent réellement à la qualité des réponses produites par les modèles.

En effet, un utilisateur peut juger une réponse meilleure parce qu’elle est plus concise, plus drôle ou tout simplement plus agréable à lire. Cependant, ces critères ne sont pas toujours en adéquation avec les performances techniques d’un modèle, comme sa capacité à raisonner, comprendre un contexte complexe ou gérer des requêtes spécialisées.

Entre fiabilité et exploitation

Un autre problème majeur de cette méthode est la fiabilité des résultats. Les plateformes de benchmark crowdsourcé reposent en grande partie sur le travail de volontaires non rémunérés, qui passent de longues heures à évaluer des modèles. Kristine Gloria, ex-responsable de l’Initiative sur les technologies émergentes de l’Institut Aspen, y voit une répétition des erreurs commises dans le secteur de l’étiquetage de données, où les travailleurs sont souvent mal payés, voire exploités.

La question de la transparence

La transparence est également un enjeu essentiel. Certaines startups optimisent leurs modèles pour briller lors de ces tests publics, mais remplacent ensuite ces versions par des modèles moins performants lors du lancement. Un exemple notable est celui du modèle Llama 4 Maverick de Meta.

Asmelash Teka Hadgu, co-fondateur de la startup d’IA Lesan, propose donc une refonte totale du système d’évaluation. Il suggère de créer des benchmarks dynamiques, régulièrement mis à jour, adaptés à différents contextes d’utilisation (éducation, santé, etc.), et surtout pilotés par des entités indépendantes comme des universités ou des ONG. Il plaide également pour une meilleure reconnaissance du travail des évaluateurs.

Conclusion: Un défi pour l’évaluation de l’IA

En conclusion, si le benchmark crowdsourcé peut sembler être une méthode d’évaluation attrayante et accessible, il présente de nombreuses lacunes. Entre la subjectivité des évaluations, l’exploitation des volontaires et le manque de transparence, il est essentiel de repenser notre approche de l’évaluation de l’IA. Une évaluation plus rigoureuse

Produits qui pourraient vous intéresser

Le mythe du benchmark crowdsourcé : les limites de cette approche pour évaluer l'IA
Le mythe du benchmark crowdsourcé : les limites de cette approche pour évaluer l'IA
Le mythe du benchmark crowdsourcé : les limites de cette approche pour évaluer l'IA

Share this content: