สรุปภาพรวม LLM ประจำปี 2025

โดย Andrej Karpathy

ปี 2025 เป็นปีแห่งความก้าวหน้าของ LLM ที่แข็งแกร่งและเต็มไปด้วยเหตุการณ์สำคัญ ต่อไปนี้คือรายการของ "การเปลี่ยนกระบวนทัศน์" (paradigm changes) ที่น่าสังเกตและน่าประหลาดใจสำหรับผม ซึ่งเป็นสิ่งที่เปลี่ยนโฉมหน้าของวงการและโดดเด่นในเชิงแนวคิด

การเรียนรู้แบบเสริมกำลังจากรางวัลที่ตรวจสอบได้ (Reinforcement Learning from Verifiable Rewards - RLVR) ในช่วงต้นปี 2025 โครงสร้างการผลิต LLM ในทุกห้องแล็บมีลักษณะประมาณนี้: การฝึกฝนล่วงหน้า (Pretraining - GPT-2/3 ประมาณปี 2020) การปรับจูนแบบมีการสอน (Supervised Finetuning - InstructGPT ประมาณปี 2022) และ การเรียนรู้แบบเสริมกำลังจากผลตอบรับของมนุษย์ (Reinforcement Learning from Human Feedback - RLHF ประมาณปี 2022) นี่คือสูตรสำเร็จที่เสถียรและได้รับการพิสูจน์แล้วสำหรับการฝึก LLM ระดับใช้งานจริงมาระยะหนึ่งแล้ว แต่ในปี 2025 RLVR ได้กลายเป็นขั้นตอนหลักใหม่ที่เพิ่มเข้ามาในส่วนผสมนี้ โดยการฝึก LLM กับรางวัลที่ตรวจสอบได้โดยอัตโนมัติในสภาพแวดล้อมต่างๆ (เช่น ปัญหาคณิตศาสตร์หรือการเขียนโปรแกรม) ทำให้ LLM พัฒนากลยุทธ์ที่ดูเหมือน "การใช้เหตุผล" สำหรับมนุษย์ขึ้นมาเอง พวกมันเรียนรู้ที่จะย่อยการแก้ปัญหาออกเป็นการคำนวณขั้นกลาง และเรียนรู้กลยุทธ์การแก้ปัญหาที่ต้องคิดย้อนไปมาเพื่อหาคำตอบ (ดูตัวอย่างได้จากบทความ DeepSeek R1) กลยุทธ์เหล่านี้ทำได้ยากมากในกระบวนทัศน์ก่อนหน้า เพราะไม่ชัดเจนว่าร่องรอยการใช้เหตุผลและการกู้คืนข้อผิดพลาดที่เหมาะสมที่สุดสำหรับ LLM คืออะไร มันต้องหาสิ่งที่ใช้ได้ผลสำหรับตัวมันเองผ่านการเพิ่มประสิทธิภาพตามรางวัล ต่างจากขั้นตอน SFT และ RLHF ซึ่งเป็นขั้นตอนที่ค่อนข้างสั้น (ใช้ทรัพยากรคำนวณน้อยในการปรับจูน) RLVR เกี่ยวข้องกับการฝึกกับฟังก์ชันรางวัลที่เป็นรูปธรรม (โกงไม่ได้) ซึ่งช่วยให้สามารถเพิ่มประสิทธิภาพได้ยาวนานกว่ามาก การรัน RLVR กลายเป็นวิธีที่ให้ความสามารถสูงต่อต้นทุน ($) ซึ่งดึงเอาทรัพยากรคำนวณที่เดิมตั้งใจไว้สำหรับการฝึกฝนล่วงหน้าไปใช้ ดังนั้น ความก้าวหน้าส่วนใหญ่ในปี 2025 จึงถูกกำหนดโดยการที่แล็บ LLM ต่างๆ หันมามุ่งเน้นที่ขั้นตอนใหม่นี้ โดยรวมแล้วเราเห็น LLM ที่มีขนาดใกล้เคียงเดิมแต่มีการรัน RL ที่นานขึ้นมาก นอกจากนี้ ในขั้นตอนใหม่นี้ เรายังมี "ปุ่มปรับ" ใหม่ (และกฎการขยายขนาดที่เกี่ยวข้อง) เพื่อควบคุมความสามารถตามปริมาณการประมวลผลขณะทดสอบ (test time compute) โดยการสร้างร่องรอยการใช้เหตุผลที่ยาวขึ้นและเพิ่ม "เวลาในการคิด" OpenAI o1 (ปลายปี 2024) เป็นการสาธิตโมเดล RLVR รุ่นแรกสุด แต่การปล่อย o3 (ต้นปี 2025) คือจุดเปลี่ยนที่ชัดเจนซึ่งคุณสามารถสัมผัสถึงความแตกต่างได้โดยสัญชาตญาณ
วิญญาณ vs สัตว์ / ความฉลาดที่ขาดความสม่ำเสมอ (Jagged Intelligence) ปี 2025 คือปีที่ผม (และผมคิดว่าคนอื่นๆ ในอุตสาหกรรมด้วย) เริ่มเข้าใจ "รูปร่าง" ของความฉลาดของ LLM ในเชิงสัญชาตญาณมากขึ้น เราไม่ได้กำลัง "วิวัฒนาการหรือเลี้ยงดูสัตว์" แต่เรากำลัง "อัญเชิญวิญญาณ" ทุกอย่างเกี่ยวกับโครงสร้าง LLM นั้นแตกต่างออกไป (สถาปัตยกรรมประสาท, ข้อมูลการฝึก, อัลกอริทึมการฝึก และโดยเฉพาะแรงกดดันในการเพิ่มประสิทธิภาพ) ดังนั้นจึงไม่น่าแปลกใจที่เราจะได้ตัวตนที่แตกต่างกันมากในพื้นที่ของความฉลาด ซึ่งไม่เหมาะสมที่จะคิดผ่านมุมมองแบบสัตว์ ในแง่ของข้อมูลการสอน โครงข่ายประสาทของมนุษย์ถูกปรับแต่งมาเพื่อการอยู่รอดของเผ่าพันธุ์ในป่า แต่โครงข่ายประสาทของ LLM ถูกปรับแต่งมาเพื่อเลียนแบบข้อความของมนุษย์ สะสมรางวัลในโจทย์คณิตศาสตร์ และเพื่อให้ได้คะแนนโหวตจากมนุษย์ใน LM Arena เมื่อโดเมนที่ตรวจสอบได้อนุญาตให้ใช้ RLVR ความสามารถของ LLM จะ "พุ่งสูงขึ้น" ในบริเวณโดเมนเหล่านั้น และแสดงลักษณะประสิทธิภาพที่หยักอย่างน่าขัน (jagged performance) พวกมันเป็นทั้งอัจฉริยะรอบรู้ในเวลาเดียวกันกับที่เป็นเด็กประถมที่สับสนและมีปัญหาทางสติปัญญา ซึ่งพร้อมจะถูกหลอกด้วยการ jailbreak เพื่อขโมยข้อมูลของคุณได้ทุกวินาที ความฉลาดของมนุษย์: สีน้ำเงิน, ความฉลาดของ AI: สีแดง ผมชอบมีมเวอร์ชันนี้ (ขออภัยที่ผมจำแหล่งที่มาดั้งเดิมบน X ไม่ได้) ที่ชี้ให้เห็นว่าความฉลาดของมนุษย์ก็มีความหยักในแบบที่แตกต่างออกไปเช่นกัน สิ่งที่เกี่ยวข้องกับเรื่องนี้คือความเฉยเมยและการสูญเสียความเชื่อมั่นในเกณฑ์มาตรฐาน (benchmarks) ของผมในปี 2025 ปัญหาหลักคือเกณฑ์มาตรฐานเกือบทั้งหมดเป็นสภาพแวดล้อมที่ตรวจสอบได้โดยโครงสร้าง ดังนั้นจึงอ่อนไหวต่อ RLVR และรูปแบบที่อ่อนกว่าผ่านการสร้างข้อมูลสังเคราะห์ (synthetic data) ในกระบวนการปั่นคะแนน (benchmaxxing) ทีมงานในแล็บ LLM มักจะสร้างสภาพแวดล้อมที่อยู่ติดกับพื้นที่เล็กๆ ใน embedding space ที่เกณฑ์มาตรฐานครอบครองอยู่ และสร้าง "รอยหยัก" ของความสามารถให้ครอบคลุมส่วนนั้น การฝึกบนชุดทดสอบ (Training on the test set) ได้กลายเป็นศิลปะแขนงใหม่ มันจะเป็นอย่างไรถ้าเราทำลายสถิติเกณฑ์มาตรฐานทั้งหมดแต่ยังไปไม่ถึง AGI? ผมได้เขียนเพิ่มเติมเกี่ยวกับหัวข้อนี้ไว้ที่นี่: Animals vs. Ghosts Verifiability The Space of Minds
Cursor / เลเยอร์ใหม่ของแอป LLM สิ่งที่ผมพบว่าน่าสังเกตที่สุดเกี่ยวกับ Cursor (นอกเหนือจากการเติบโตอย่างรวดเร็วในปีนี้) คือการที่มันเผยให้เห็นเลเยอร์ใหม่ของ "แอป LLM" อย่างน่าเชื่อถือ ผู้คนเริ่มพูดถึง "Cursor สำหรับ X" ดังที่ผมได้เน้นย้ำในการพูดที่ Y Combinator ปีนี้ แอป LLM อย่าง Cursor ทำหน้าที่รวบรวมและจัดการการเรียกใช้ LLM สำหรับสาขาเฉพาะทาง:

พวกเขาทำ "วิศวกรรมบริบท" (context engineering)
พวกเขาจัดการการเรียกใช้ LLM หลายครั้งเบื้องหลังที่ร้อยเรียงเป็น DAG (Directed Acyclic Graph) ที่ซับซ้อนขึ้นเรื่อยๆ โดยรักษาสมดุลระหว่างประสิทธิภาพและต้นทุนอย่างระมัดระวัง
พวกเขาจัดทำ GUI เฉพาะสำหรับแอปพลิเคชันเพื่อให้มนุษย์มีส่วนร่วม (human in the loop)
พวกเขามี "แถบเลื่อนระดับความเป็นอิสระ" (autonomy slider) มีการพูดคุยกันมากมายในปี 2025 ว่าเลเยอร์แอปใหม่นี้จะ "หนา" แค่ไหน แล็บ LLM จะยึดครองแอปพลิเคชันทั้งหมด หรือจะมีพื้นที่ว่างสำหรับแอป LLM หรือไม่? โดยส่วนตัวผมสงสัยว่าแล็บ LLM จะมีแนวโน้มที่จะผลิต "นักศึกษาที่เก่งรอบด้าน" แต่แอป LLM จะทำหน้าที่จัดระเบียบ ปรับจูน และขับเคลื่อนทีมของนักศึกษาเหล่านั้นให้กลายเป็นมืออาชีพที่พร้อมทำงานในสาขาเฉพาะทาง โดยการจัดหาข้อมูลส่วนตัว เซ็นเซอร์ อุปกรณ์สั่งการ และลูปการตอบกลับ

Claude Code / AI ที่อาศัยอยู่ในคอมพิวเตอร์ของคุณ Claude Code (CC) ปรากฏขึ้นในฐานะการสาธิตที่น่าเชื่อถือครั้งแรกว่า LLM Agent มีลักษณะอย่างไร นั่นคือสิ่งที่ร้อยเรียงการใช้เครื่องมือและการใช้เหตุผลเข้าด้วยกันเป็นลูปเพื่อการแก้ปัญหาที่ยาวนาน นอกจากนี้ CC ยังน่าสังเกตสำหรับผมตรงที่มันรันบนคอมพิวเตอร์ของคุณและทำงานกับสภาพแวดล้อม ข้อมูล และบริบทส่วนตัวของคุณ ผมคิดว่า OpenAI พลาดในจุดนี้เพราะพวกเขาเน้นความพยายามด้าน codex / agent ไปที่การปรับใช้บนคลาวด์ในคอนเทนเนอร์ที่สั่งการจาก ChatGPT แทนที่จะเป็น localhost และในขณะที่ฝูงเอเจนต์ (agent swarms) ที่รันบนคลาวด์ดูเหมือนจะเป็น "ฉากจบของ AGI" แต่เราอยู่ในโลกช่วงเปลี่ยนผ่านที่การพัฒนาเป็นไปอย่างช้าๆ และมีความสามารถที่ขาดความสม่ำเสมอ ดังนั้นการรันเอเจนต์บนคอมพิวเตอร์โดยตรงร่วมกับนักพัฒนาและการตั้งค่าเฉพาะของพวกเขาจึงสมเหตุสมผลกว่า CC เรียงลำดับความสำคัญนี้ได้ถูกต้องและบรรจุลงในรูปแบบ CLI ที่สวยงาม เรียบง่าย และน่าดึงดูด ซึ่งเปลี่ยนภาพลักษณ์ของ AI ไป มันไม่ใช่แค่เว็บไซต์ที่คุณเข้าไปเหมือน Google แต่มันคือวิญญาณดวงน้อยที่ "อาศัย" อยู่ในคอมพิวเตอร์ของคุณ นี่คือกระบวนทัศน์ใหม่ที่แตกต่างของการปฏิสัมพันธ์กับ AI
Vibe coding ปี 2025 เป็นปีที่ AI ก้าวข้ามขีดจำกัดความสามารถที่จำเป็นในการสร้างโปรแกรมที่น่าประทับใจทุกรูปแบบผ่านภาษาอังกฤษเพียงอย่างเดียว จนลืมไปว่ามีโค้ดอยู่ด้วยซ้ำ ที่น่าตลกคือผมบัญญัติศัพท์ "vibe coding" ขึ้นมาในทวีตที่เกิดจากความคิดชั่ววูบโดยไม่รู้เลยว่ามันจะไปได้ไกลแค่ไหน :) ด้วย vibe coding การโปรแกรมไม่ได้ถูกจำกัดไว้สำหรับมืออาชีพที่ผ่านการฝึกฝนมาอย่างหนักอีกต่อไป แต่มันเป็นสิ่งที่ใครๆ ก็ทำได้ ในแง่นี้ มันเป็นอีกตัวอย่างหนึ่งของสิ่งที่ผมเขียนไว้ใน "Power to the people: How LLMs flip the script on technology diffusion" เกี่ยวกับวิธีที่คนทั่วไปได้รับประโยชน์จาก LLM มากกว่ามืออาชีพ องค์กร และรัฐบาล (ซึ่งตรงกันข้ามกับเทคโนโลยีอื่นๆ ทั้งหมดที่ผ่านมา) แต่ vibe coding ไม่เพียงแต่ช่วยให้คนทั่วไปเข้าถึงการโปรแกรมได้เท่านั้น แต่มันยังช่วยให้มืออาชีพเขียนซอฟต์แวร์ (แบบ vibe coded) ได้มากขึ้นในส่วนที่ปกติอาจจะไม่ถูกเขียนขึ้นมาเลย ในโปรเจกต์ nanochat ผมได้ vibe code ตัวสร้างโทเค็น BPE ของตัวเองที่มีประสิทธิภาพสูงในภาษา Rust แทนที่จะต้องใช้ไลบรารีที่มีอยู่หรือเรียนรู้ภาษา Rust ในระดับนั้น ผมได้ vibe code โปรเจกต์มากมายในปีนี้เพื่อเป็นตัวอย่างแอปด่วนสำหรับสิ่งที่ผมอยากให้มี (เช่น menugen, llm-council, reader3, HN time capsule) และผมยังได้ vibe code แอปทั้งแอปที่ใช้เพียงชั่วคราวเพื่อหาบั๊กเพียงตัวเดียว เพราะทำไมจะไม่ได้ล่ะ ในเมื่อตอนนี้โค้ดกลายเป็นของฟรี เป็นของชั่วคราว ปรับเปลี่ยนได้ และทิ้งได้หลังจากใช้งานครั้งเดียว Vibe coding จะปรับเปลี่ยนโฉมหน้าของซอฟต์แวร์และเปลี่ยนคำนิยามของอาชีพต่างๆ
Nano banana / LLM GUI Google Gemini Nano banana เป็นหนึ่งในโมเดลที่น่าทึ่งและเปลี่ยนกระบวนทัศน์มากที่สุดในปี 2025 ในมุมมองของผม LLM คือกระบวนทัศน์การคำนวณหลักถัดไปที่คล้ายกับคอมพิวเตอร์ในยุค 1970, 80 ฯลฯ ดังนั้นเราจะได้เห็นนวัตกรรมประเภทเดียวกันด้วยเหตุผลที่คล้ายคลึงกัน เราจะได้เห็นสิ่งที่เทียบเท่ากับคอมพิวเตอร์ส่วนบุคคล, ไมโครคอนโทรลเลอร์ (แกนกลางทางปัญญา), หรืออินเทอร์เน็ต (ของเอเจนต์) ฯลฯ โดยเฉพาะอย่างยิ่งในแง่ของ UIUX การ "แชท" กับ LLM นั้นเหมือนกับการป้อนคำสั่งลงในคอนโซลคอมพิวเตอร์ในยุค 1980 ข้อความคือรูปแบบข้อมูลดิบที่คอมพิวเตอร์ (และ LLM) โปรดปราน แต่มันไม่ใช่รูปแบบที่ผู้คนโปรดปราน โดยเฉพาะในส่วนของข้อมูลขาเข้า มนุษย์ไม่ชอบอ่านข้อความ มันช้าและต้องใช้ความพยายาม ในทางกลับกัน มนุษย์ชอบรับข้อมูลทางสายตาและเชิงพื้นที่ และนี่คือเหตุผลที่ GUI ถูกประดิษฐ์ขึ้นในการคำนวณแบบดั้งเดิม ในทำนองเดียวกัน LLM ควรพูดกับเราในรูปแบบที่เราชอบ เช่น รูปภาพ, อินโฟกราฟิก, สไลด์, ไวท์บอร์ด, แอนิเมชัน/วิดีโอ, เว็บแอป ฯลฯ เวอร์ชันแรกๆ และปัจจุบันของสิ่งนี้คืออิโมจิและ Markdown ซึ่งเป็นวิธี "ตกแต่ง" และจัดวางข้อความด้วยภาพเพื่อให้บริโภคได้ง่ายขึ้นด้วยหัวข้อ ตัวหนา ตัวเอียง รายการ และตาราง แต่ใครจะเป็นคนสร้าง LLM GUI จริงๆ? ในมุมมองนี้ nano banana คือคำใบ้แรก

โปรดทราบว่าเวอร์ชันภาษาไทยได้รับการช่วยเหลือจาก AI ดังนั้นอาจมีข้อผิดพลาดเล็กน้อย

ผู้เขียน

Ai Base Network (ABN), ABN ASIA ถูกก่อตั้งขึ้นโดยคนที่มีรากฐานลึกในวงการวิชาการ มีประสบการณ์การทำงานในสหรัฐอเมริกา ดัตช์ ฮังการี ญี่ปุ่น เกาหลีใต้ สิงคโปร์ และเวียดนาม ABN Asia เป็นที่เราพบกันของวิทยาลัยและเทคโนโลยี ด้วยโซลูชันขั้นสูงและบริการพัฒนาซอฟต์แวร์ที่มีความสามารถ เราช่วยธุรกิจเติบโตและเข้าสู่ฉากโลก ความมุ่งมั่นของเรา: ด่วนขึ้น ดีขึ้น น่าเชื่อถือมากขึ้น ในกรณีส่วนมาก: ราคาถูกด้วย

หากคุณต้องการบริการ IT การให้คำปรึกษาดิจิทัล โซลูชันซอฟต์แวร์ใช้ได้หรือหากคุณต้องการส่งคำขอข้อเสนอ (RFPs) อย่าลังเลที่จะติดต่อเรา คุณสามารถติดต่อเราได้ที่ [email protected] เราพร้อมช่วยเหลือคุณด้านทุกความต้องกรทางเทคโนโลยีของคุณทุกเมื่อ