- เผยแพร่เมื่อ
วิธีที่โมเดลภาษาขนาดใหญ่ (LLM) มองโลก
- ผู้เขียน

- ชื่อ
- AbnAsia.org
- @steven_n_t

เมื่อคุณพิมพ์ "Hello world" เข้าไปใน ChatGPT หรือ Claude โมเดลไม่ได้ประมวลผลตัวอักษรและช่องว่างเหล่านั้นเหมือนกับที่คุณกำลังอ่านโพสต์นี้อยู่ แต่มันแปลงทุกอย่างเป็นตัวเลขผ่านกระบวนการที่ผู้คนส่วนใหญ่ไม่เคยคิดถึง
การประมวลผลก่อน (Preprocessing) มาเป็นอันดับแรก ข้อความจะถูกทำให้เป็นมาตรฐาน ตัวอักษรยูนิโคด ช่องว่างที่แปลกๆ และสัญลักษณ์พิเศษ จะถูกทำความสะอาดและทำให้เป็นมาตรฐาน "Hello world" จะกลายเป็นรูปแบบที่สม่ำเสมอซึ่งโมเดลสามารถทำงานได้
จากนั้นมาถึงการแบ่งคำ (Tokenization) นี่คือจุดที่เริ่มมีเรื่องให้สนใจ โมเดลจะแบ่งข้อความออกเป็นโทเค็น (Token) และมีแนวทางที่แตกต่างกัน
1 - การแบ่งคำตามตัวอักษร (Character-based tokenization) จะแบ่งทุกอย่างออกเป็นตัวอักษรเดี่ยวๆ "Hello world" จะกลายเป็น ["H", "e", "l", "l", "o", " ", "w", "o", "r", "l", "d"] ง่ายแต่ไม่มีประสิทธิภาพ
2 - การแบ่งคำตามคำ (Word-based) จะแบ่งออกเป็นคำทั้งหมด ["Hello", "world"] สะอาดกว่าแต่ประสบปัญหากับคำที่ไม่ค่อยพบและสร้างคำศัพท์ที่มีขนาดใหญ่มาก
3 - การแบ่งคำตามส่วนคำ (Subword-based) เป็นสิ่งที่โมเดลภาษาขนาดใหญ่สมัยใหม่ใช้ GPT, Gemini, Claude ทั้งหมดพึ่งพานี้ "Hello world" จะกลายเป็นบางอย่างเช่น ["Hell", "o", "world"] มันสร้างสมดุลระหว่างประสิทธิภาพและความยืดหยุ่น จัดการกับคำที่ไม่ค่อยพบโดยการแบ่งออกเป็นชิ้นส่วนย่อยของคำที่รู้จัก
ขั้นตอนสุดท้ายคือ ID โทเค็น (Token IDs) โทเค็นย่อยเหล่านั้นจะถูกแมปกับตัวเลข เช่น [15496, 345, 995] แต่ละ ID โทเค็นจะสอดคล้องกับเวกเตอร์เชิงการฝัง (Embedding vector) ภายในโมเดล นั่นคือสิ่งที่เครือข่ายประสาทเทียมจริงๆ ประมวลผล
โปรดทราบว่าเวอร์ชันภาษาไทยได้รับการช่วยเหลือจาก AI ดังนั้นอาจมีข้อผิดพลาดเล็กน้อย
ผู้เขียน
Ai Base Network (ABN), ABN ASIA ถูกก่อตั้งขึ้นโดยคนที่มีรากฐานลึกในวงการวิชาการ มีประสบการณ์การทำงานในสหรัฐอเมริกา ดัตช์ ฮังการี ญี่ปุ่น เกาหลีใต้ สิงคโปร์ และเวียดนาม ABN Asia เป็นที่เราพบกันของวิทยาลัยและเทคโนโลยี ด้วยโซลูชันขั้นสูงและบริการพัฒนาซอฟต์แวร์ที่มีความสามารถ เราช่วยธุรกิจเติบโตและเข้าสู่ฉากโลก ความมุ่งมั่นของเรา: ด่วนขึ้น ดีขึ้น น่าเชื่อถือมากขึ้น ในกรณีส่วนมาก: ราคาถูกด้วย
หากคุณต้องการบริการ IT การให้คำปรึกษาดิจิทัล โซลูชันซอฟต์แวร์ใช้ได้หรือหากคุณต้องการส่งคำขอข้อเสนอ (RFPs) อย่าลังเลที่จะติดต่อเรา คุณสามารถติดต่อเราได้ที่ [email protected] เราพร้อมช่วยเหลือคุณด้านทุกความต้องกรทางเทคโนโลยีของคุณทุกเมื่อ

© ABN ASIA