Accélérer l'inférence LLM avec la décision spéculative

Rappelez-vous MSN Messenger ?

Qu'est-ce que le décodage spéculatif ?

C'est une technique qui utilise un modèle brouillon (SLM) pour travailler aux côtés du principal LLM :

1️⃣ Le modèle brouillon prédit les K prochains jetons.

2️⃣ Le principal LLM vérifie et corrige comme nécessaire.

3️⃣ S'il y a une erreur, le LLM continue la séquence et le modèle brouillon redémarre avec une entrée mise à jour.

Pourquoi cela fonctionne :

• Jusqu'à 3 fois plus rapide pour la complétion de code.

• Jusqu'à 2 fois plus rapide pour la résumé, la génération de texte et les instructions.

Modèles brouillons pré-entraînés :

• Llama-3.1-8B-FastDraft-150M

• Phi-3-mini-FastDraft-50M

Pourquoi cela compte :

Cela rend les LLM plus rapides, plus efficaces et prêts pour les tâches du monde réel.

Veuillez noter que la version française est assistée par Ai, des erreurs mineures peuvent donc exister.

Auteur

Ai Base Network (ABN), ABN ASIA a été fondée par des personnes ayant des racines profondes dans le milieu académique, avec une expérience professionnelle aux États-Unis, aux Pays-Bas, en Hongrie, au Japon, en Corée du Sud, à Singapour et au Vietnam. ABN ASIA est l'endroit où l'académie et la technologie rencontrent l'opportunité. Avec nos solutions de pointe et nos services de développement logiciel compétents, nous aidons les entreprises à se développer et à s'imposer sur la scène mondiale. Notre engagement : Plus vite. Mieux. Plus fiable. Dans la plupart des cas : moins cher également.

N'hésitez pas à nous contacter chaque fois que vous avez besoin de services informatiques, de conseils en matière de numérique, de solutions logicielles prêtes à l'emploi, ou si vous souhaitez nous envoyer des demandes de propositions (RFP). Vous pouvez nous contacter à l'adresse [email protected]. Nous sommes prêts à vous aider avec tous vos besoins technologiques.