Publié le

Classement des chatbots : Tâches différentes, vainqueurs différents

Auteurs

Il est peu connu que Chatbot Arena publie des classements basés sur des catégories pour des prompts tels que les Maths, la Programmation ou l'Écriture Créative ainsi que des ajustements pour le style.

Image

Cela signifie que nous pouvons voir ce que constitue la « performance de base » du modèle pour certaines tâches.

J'étais intéressé à explorer si certains laboratoires ont tendance à être sous-estimés ou surestimés par la note « Général » pour diverses tâches. Les résultats sont honnêtement loin de ce à quoi je m'attendais :

  • Les modèles OpenAI sont principalement sous-estimés (c'est-à-dire qu'ils sont plus forts si l'on regarde les notes individuelles)

  • xAI, Google, Meta, 01 (laboratoire, pas modèle), Cohere, Nvidia sont tous surestimés

  • DeepSeek, Mistral, Alibaba (modèles Qwen) sont sous-estimés

  • Anthropic est plus mitigé - la surestimation pour l'écriture créative est assez intéressante

En guise de conseil, si vous voulez regarder les meilleurs modèles, je vous suggère de regarder « Difficile avec contrôle de style » - où Sonnet 3.6, o1-preview et Google-Exp-1121 sont à égalité pour la première place - cela correspond beaucoup mieux à mon intuition sur ce que sont les meilleurs modèles.

Veuillez noter que la version française est assistée par Ai, des erreurs mineures peuvent donc exister.

Auteur

AiUTOMATING PEOPLE, ABN ASIA a été fondée par des personnes ayant des racines profondes dans le milieu académique, avec une expérience professionnelle aux États-Unis, aux Pays-Bas, en Hongrie, au Japon, en Corée du Sud, à Singapour et au Vietnam. ABN ASIA est l'endroit où l'académie et la technologie rencontrent l'opportunité. Avec nos solutions de pointe et nos services de développement logiciel compétents, nous aidons les entreprises à se développer et à s'imposer sur la scène mondiale. Notre engagement : Plus vite. Mieux. Plus fiable. Dans la plupart des cas : moins cher également.

N'hésitez pas à nous contacter chaque fois que vous avez besoin de services informatiques, de conseils en matière de numérique, de solutions logicielles prêtes à l'emploi, ou si vous souhaitez nous envoyer des demandes de propositions (RFP). Vous pouvez nous contacter à l'adresse [email protected]. Nous sommes prêts à vous aider avec tous vos besoins technologiques.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software