Published on

Cómo los LLMs ven el mundo

Authors

Image

Cuando escribes "Hola mundo" en ChatGPT o Claude, el modelo no procesa esas letras y espacios como estás leyendo este mensaje ahora. En su lugar, convierte todo en números a través de un proceso que la mayoría de las personas nunca considera.

La preprocesamiento es lo primero. El texto se normaliza. Los caracteres Unicode, las rarezas de espaciado y los símbolos especiales, todos se limpian y estandarizan. "Hola mundo" se convierte en un formato coherente que el modelo puede trabajar con él.

Luego viene la tokenización. Es aquí donde las cosas se ponen interesantes. El modelo divide el texto en tokens, y hay diferentes enfoques.

1 - La tokenización basada en caracteres descompone todo en caracteres individuales. "Hola mundo" se convierte en ["H", "o", "l", "a", " ", "m", "u", "n", "d", "o"]. Simple pero ineficiente.

2 - La tokenización basada en palabras divide en palabras completas. ["Hola", "mundo"]. Más limpia, pero lucha con palabras raras y crea vocabularios masivos.

3 - La tokenización basada en subpalabras es lo que los LLM modernos realmente utilizan. GPT, Gemini, Claude, todos confían en esto. "Hola mundo" se convierte en algo como ["Hol", "a", "mun", "do"]. Equilibra la eficiencia con la flexibilidad, manejando palabras raras al descomponerlas en piezas de subpalabras conocidas.

El paso final es los IDs de token. Esas subpalabras se asignan a números como [15496, 345, 995]. Cada ID de token corresponde a un vector de incrustación dentro del modelo. Eso es lo que la red neuronal procesa realmente.

Autor

Ai Base Network (ABN), ABN ASIA fue fundada por personas con profundas raíces en la academia y experiencia laboral en EE.UU., Holanda, Hungría, Japón, Corea del Sur, Singapur y Vietnam. ABN Asia es donde la academia y la tecnología encuentran oportunidades. Con nuestras soluciones innovadoras y servicios competentes de desarrollo de software, estamos ayudando a las empresas a mejorar y a enfrentarse al mercado global. Nuestro compromiso: Más rápido. Mejor. Más confiable. En la mayoría de los casos: también más económico.

No dudes en contactarnos siempre que necesites servicios de TI, consultoría digital, soluciones de software listas para usar, o si deseas enviarnos solicitudes de propuestas (RFPs). Puedes contactarnos en [email protected]. Estamos listos para ayudarte con todas tus necesidades tecnológicas.

ABNAsia.org

© ABN ASIA