Tổng kết năm 2025 về LLM

Tác giả: Andrey Karpathy

Năm 2025 là một năm tiến bộ mạnh mẽ và đầy biến động của các mô hình ngôn ngữ lớn (LLM). Dưới đây là danh sách những "thay đổi hệ tư tưởng" đáng chú ý và gây ngạc nhiên đối với cá nhân tôi - những điều đã thay đổi cục diện và nổi bật về mặt khái niệm.

1. Học tăng cường từ phần thưởng có thể kiểm chứng (RLVR) Vào đầu năm 2025, quy trình sản xuất LLM tại tất cả các phòng thí nghiệm trông giống như thế này: Tiền huấn luyện (GPT-2/3 khoảng năm 2020) Tinh chỉnh có giám sát (InstructGPT khoảng năm 2022) và Học tăng cường từ phản hồi của con người (RLHF khoảng năm 2022) Đây từng là công thức ổn định và đã được chứng minh để huấn luyện một LLM cấp độ thương mại trong một thời gian dài. Vào năm 2025, Học tăng cường từ phần thưởng có thể kiểm chứng (RLVR) đã nổi lên như một giai đoạn lớn mới mặc định được thêm vào quy trình này. Bằng cách huấn luyện LLM dựa trên các phần thưởng có thể kiểm chứng tự động trong nhiều môi trường (ví dụ: các câu đố toán học/lập trình), các LLM tự phát triển các chiến lược trông giống như "suy luận" đối với con người - chúng học cách chia nhỏ việc giải quyết vấn đề thành các bước tính toán trung gian và học một số chiến lược giải quyết vấn đề bằng cách thử sai để tìm ra đáp án (xem bài báo DeepSeek R1 để biết ví dụ). Những chiến lược này sẽ rất khó đạt được trong các hệ tư tưởng trước đây vì không rõ các vết suy luận và phục hồi tối ưu trông như thế nào đối với LLM - nó phải tự tìm ra những gì hiệu quả với mình thông qua việc tối ưu hóa dựa trên phần thưởng.

Khác với giai đoạn SFT và RLHF, vốn là những giai đoạn tương đối mỏng/ngắn (tốn ít tài nguyên tính toán để tinh chỉnh), RLVR bao gồm việc huấn luyện dựa trên các hàm phần thưởng khách quan (không thể gian lận), cho phép tối ưu hóa lâu hơn rất nhiều. Việc chạy RLVR hóa ra mang lại hiệu suất/chi phí rất cao, tiêu tốn lượng tài nguyên tính toán vốn ban đầu được dự định cho việc tiền huấn luyện. Do đó, hầu hết các tiến bộ về năng lực của năm 2025 được định nghĩa bởi việc các phòng thí nghiệm LLM tận dụng tiềm năng của giai đoạn mới này; nhìn chung chúng ta thấy các LLM có kích thước tương đương nhưng thời gian chạy RL dài hơn nhiều. Một điểm độc đáo khác của giai đoạn mới này là chúng ta có một "nút vặn" hoàn toàn mới (và một định luật quy mô liên quan) để kiểm soát năng lực dưới dạng tính toán tại thời điểm kiểm tra (test time compute) bằng cách tạo ra các vết suy luận dài hơn và tăng "thời gian suy nghĩ". OpenAI o1 (cuối năm 2024) là minh chứng đầu tiên của một mô hình RLVR, nhưng bản phát hành o3 (đầu năm 2025) mới là điểm bùng nổ rõ rệt, nơi bạn có thể cảm nhận được sự khác biệt một cách trực quan.

2. Bóng ma và Động vật / Trí tuệ răng cưa Năm 2025 là thời điểm tôi (và tôi nghĩ cả ngành công nghiệp này) bắt đầu thực sự hiểu rõ "hình dáng" trí tuệ của LLM theo nghĩa trực quan hơn. Chúng ta không phải đang "tiến hóa/nuôi dưỡng động vật", chúng ta đang "triệu hồi những bóng ma". Mọi thứ về cấu trúc LLM đều khác biệt (kiến trúc thần kinh, dữ liệu huấn luyện, thuật toán huấn luyện và đặc biệt là áp lực tối ưu hóa), vì vậy không có gì ngạc nhiên khi chúng ta thu được những thực thể rất khác biệt trong không gian trí tuệ, vốn không phù hợp để tư duy qua lăng kính của thế giới động vật. Xét về các bit giám sát, mạng thần kinh của con người được tối ưu hóa để sinh tồn trong bộ lạc giữa rừng rậm, nhưng mạng thần kinh LLM được tối ưu hóa để bắt chước văn bản của nhân loại, thu thập phần thưởng trong các câu đố toán học và nhận được lượt bình chọn từ con người trên LM Arena. Khi các lĩnh vực có thể kiểm chứng cho phép thực hiện RLVR, các LLM "vọt lên" về năng lực trong vùng lân cận của các lĩnh vực này và nhìn chung hiển thị các đặc điểm hiệu suất "răng cưa" một cách thú vị - chúng vừa là một học giả thiên tài, vừa là một học sinh tiểu học bối rối và gặp khó khăn về nhận thức, chỉ vài giây sau là có thể bị lừa bởi một kỹ thuật jailbreak để đánh cắp dữ liệu của bạn.

Trí tuệ con người: màu xanh, trí tuệ AI: màu đỏ. Tôi thích phiên bản meme này (tôi xin lỗi vì đã mất nguồn bài đăng gốc trên X) vì nó chỉ ra rằng trí tuệ con người cũng có hình răng cưa theo cách riêng của nó. Liên quan đến tất cả những điều này là sự thờ ơ và mất niềm tin chung của tôi vào các bài kiểm tra năng lực (benchmarks) trong năm 2025. Vấn đề cốt lõi là các bài kiểm tra này, gần như do cấu trúc của chúng, là các môi trường có thể kiểm chứng và do đó ngay lập tức dễ bị ảnh hưởng bởi RLVR và các dạng yếu hơn của nó thông qua việc tạo dữ liệu tổng hợp. Trong quá trình tối ưu hóa điểm số (benchmaxxing) điển hình, các nhóm tại các phòng thí nghiệm LLM chắc chắn sẽ xây dựng các môi trường lân cận với các túi nhỏ trong không gian nhúng mà các bài kiểm tra chiếm giữ và phát triển các "răng cưa" để bao phủ chúng. Huấn luyện trên tập kiểm tra là một loại hình nghệ thuật mới. Sẽ ra sao nếu chúng ta nghiền nát mọi bài kiểm tra nhưng vẫn không đạt được AGI? Tôi đã viết nhiều hơn về chủ đề này tại đây: Animals vs. Ghosts Verifiability The Space of Minds

3. Cursor / Lớp ứng dụng LLM mới Điều tôi thấy đáng chú ý nhất về Cursor (ngoài sự trỗi dậy thần tốc của nó trong năm nay) là nó đã tiết lộ một cách thuyết phục một lớp mới của "ứng dụng LLM" - mọi người bắt đầu nói về "Cursor cho X". Như tôi đã nhấn mạnh trong bài phát biểu tại Y Combinator năm nay, các ứng dụng LLM như Cursor đóng gói và điều phối các lệnh gọi LLM cho các lĩnh vực cụ thể:

Họ thực hiện "kỹ nghệ ngữ cảnh" (context engineering).
Họ điều phối nhiều lệnh gọi LLM ngầm, xâu chuỗi chúng thành các đồ thị có hướng không chu trình (DAG) ngày càng phức tạp, cân bằng cẩn thận giữa hiệu suất và chi phí.
Họ cung cấp giao diện đồ họa (GUI) đặc thù cho ứng dụng để con người tham gia vào quy trình.
Họ cung cấp một "thanh trượt tự chủ". Đã có rất nhiều cuộc thảo luận trong năm 2025 về việc lớp ứng dụng mới này "dày" đến mức nào. Liệu các phòng thí nghiệm LLM sẽ thâu tóm mọi ứng dụng hay vẫn còn những vùng đất hứa cho các ứng dụng LLM? Cá nhân tôi nghi ngờ rằng các phòng thí nghiệm LLM sẽ có xu hướng đào tạo ra những "sinh viên đại học" có năng lực chung, nhưng các ứng dụng LLM sẽ tổ chức, tinh chỉnh và thực sự vận hành các nhóm sinh viên đó thành những chuyên gia thực thụ trong các lĩnh vực cụ thể bằng cách cung cấp dữ liệu riêng tư, các cảm biến, bộ truyền động và các vòng lặp phản hồi.

4. Claude Code / AI sống trên máy tính của bạn Claude Code (CC) nổi lên như minh chứng thuyết phục đầu tiên về một Tác nhân LLM (LLM Agent) trông như thế nào - một thứ xâu chuỗi việc sử dụng công cụ và suy luận theo vòng lặp để giải quyết vấn đề kéo dài. Ngoài ra, CC đáng chú ý với tôi ở chỗ nó chạy trên máy tính của bạn với môi trường, dữ liệu và ngữ cảnh riêng tư của bạn. Tôi nghĩ OpenAI đã sai lầm ở điểm này vì họ tập trung nỗ lực vào các tác nhân/codex triển khai trên đám mây trong các container được điều phối từ ChatGPT thay vì localhost. Và mặc dù các nhóm tác nhân chạy trên đám mây có vẻ giống như "đích đến cuối cùng của AGI", chúng ta đang sống trong một thế giới chuyển giao trung gian và đủ chậm với những năng lực răng cưa, nơi việc chạy các tác nhân trực tiếp trên máy tính, song hành cùng các nhà phát triển và thiết lập cụ thể của họ, sẽ hợp lý hơn. CC đã nắm bắt đúng thứ tự ưu tiên này và đóng gói nó vào một định dạng giao diện dòng lệnh (CLI) đẹp mắt, tối giản và đầy thuyết phục, làm thay đổi diện mạo của AI - nó không chỉ là một trang web bạn truy cập như Google, nó là một "linh hồn/bóng ma" nhỏ sống trên máy tính của bạn. Đây là một hệ tư tưởng tương tác mới, khác biệt với AI.

5. Lập trình theo "vibe" (Vibe coding) 2025 là năm AI vượt qua ngưỡng năng lực cần thiết để xây dựng đủ loại chương trình ấn tượng chỉ thông qua tiếng Anh, quên đi cả việc mã nguồn có tồn tại. Thật thú vị, tôi đã đặt ra thuật ngữ "vibe coding" trong một dòng tweet ngẫu hứng mà không hề biết nó sẽ tiến xa đến mức nào :). Với vibe coding, lập trình không còn dành riêng cho các chuyên gia được đào tạo bài bản, đó là thứ mà bất kỳ ai cũng có thể làm được. Với vai trò này, nó là một ví dụ khác cho những gì tôi đã viết trong bài "Sức mạnh cho mọi người: Cách LLM đảo ngược kịch bản về sự lan tỏa công nghệ", về việc (trái ngược hoàn toàn với tất cả các công nghệ khác từ trước đến nay) những người bình thường được hưởng lợi từ LLM nhiều hơn so với các chuyên gia, tập đoàn và chính phủ. Nhưng vibe coding không chỉ trao quyền cho những người bình thường tiếp cận lập trình, nó còn giúp các chuyên gia viết được nhiều phần mềm hơn (theo kiểu vibe coding) mà lẽ ra sẽ không bao giờ được viết. Trong dự án nanochat, tôi đã "vibe code" bộ mã hóa BPE tùy chỉnh hiệu suất cao của riêng mình bằng Rust thay vì phải sử dụng các thư viện có sẵn hoặc học Rust ở cấp độ đó. Tôi đã vibe code nhiều dự án trong năm nay dưới dạng các bản demo ứng dụng nhanh cho những thứ tôi muốn tồn tại (ví dụ: menugen, llm-council, reader3, HN time capsule). Và tôi đã vibe code toàn bộ các ứng dụng tạm thời chỉ để tìm một lỗi duy nhất vì tại sao không - mã nguồn đột nhiên trở nên miễn phí, tạm thời, dễ uốn nắn và có thể vứt bỏ sau một lần sử dụng. Vibe coding sẽ thay đổi diện mạo phần mềm và định nghĩa lại các mô tả công việc.

6. Nano banana / Giao diện đồ họa LLM Google Gemini Nano banana là một trong những mô hình đáng kinh ngạc và thay đổi hệ tư tưởng nhất của năm 2025. Theo quan điểm của tôi, LLM là hệ tư tưởng điện toán lớn tiếp theo tương tự như máy tính của những năm 1970, 80, v.v. Do đó, chúng ta sẽ thấy những loại hình đổi mới tương tự vì những lý do cơ bản giống nhau. Chúng ta sẽ thấy các phiên bản tương đương của máy tính cá nhân, của vi điều khiển (lõi nhận thức), hoặc internet (của các tác nhân), v.v. Đặc biệt, về mặt UIUX, việc "chat" với LLM hơi giống như việc ra lệnh cho bảng điều khiển máy tính vào những năm 1980. Văn bản là dạng biểu diễn dữ liệu thô/được ưu tiên cho máy tính (và LLM), nhưng nó không phải là định dạng ưa thích của con người, đặc biệt là ở đầu vào. Con người thực sự không thích đọc văn bản - nó chậm và tốn sức. Thay vào đó, con người thích tiêu thụ thông tin một cách trực quan và không gian, đó là lý do tại sao GUI (giao diện đồ họa) được phát minh trong điện toán truyền thống. Tương tự như vậy, LLM nên nói chuyện với chúng ta theo định dạng ưa thích của chúng ta - bằng hình ảnh, đồ họa thông tin, slide, bảng trắng, hoạt ảnh/video, ứng dụng web, v.v. Phiên bản sơ khai và hiện tại của điều này tất nhiên là những thứ như emoji và Markdown, vốn là những cách để "trang trí" và trình bày văn bản trực quan để dễ tiêu thụ hơn với tiêu đề, chữ đậm, chữ nghiêng, danh sách, bảng biểu, v.v. Nhưng ai sẽ thực sự xây dựng GUI cho LLM? Trong thế giới quan này, nano banana là một gợi ý sớm về việc điều đó trông như thế nào. Và quan trọng là, một khía cạnh đáng chú ý của nó là không chỉ nằm ở việc tạo hình ảnh, mà là năng lực kết hợp đến từ việc tạo văn bản, tạo hình ảnh và kiến thức thế giới, tất cả được đan xen trong trọng số của mô hình.

Tóm tắt: 2025 là một năm đầy thú vị và gây ngạc nhiên của LLM. LLM đang nổi lên như một loại trí tuệ mới, đồng thời thông minh hơn nhiều so với tôi mong đợi và cũng ngớ ngẩn hơn nhiều so với tôi tưởng tượng. Trong mọi trường hợp, chúng cực kỳ hữu ích và tôi không nghĩ rằng ngành công nghiệp này đã hiện thực hóa được dù chỉ 10% tiềm năng của chúng ngay cả với năng lực hiện tại. Trong khi đó, có rất nhiều ý tưởng để thử nghiệm

TÁC GIẢ

Về ABN Asia: Ai Base Network (ABN), ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.