เผยแพร่เมื่อ

Multimodal RAG อธิบายด้วยภาพ 👇

ผู้เขียน

ระบบ Vanill RAG ทำงานได้ดีกับเอกสารข้อความ แต่เอกสารในโลกแห่งความเป็นจริงมีข้อความ + รูปภาพ + ตาราง และอื่นๆ แล้วเราจะทำอย่างไร

Image

การจัดการข้อมูลหลายรูปแบบ (Multimodal) นี้ทำให้เกิดความท้าทายเพิ่มเติมในการแยกคำ (Parsing) การฝัง (Embedding) และการเรียกค้น (Retrieval)

ระบบ RAG หลายรูปแบบ (Multimodal RAG) ถูกสร้างขึ้นเพื่อจัดการข้อมูลหลายประเภทและทำ RAG

ลองเข้าใจส่วนประกอบหลักๆ ของมันและวิธีการทำงานร่วมกันเพื่อให้เกิดผลลัพธ์นี้

  1. โมเดลภาษาขนาดใหญ่หลายรูปแบบ (Multimodal Large Language Model - LLM):

ที่จุดศูนย์กลางของ Multimodal RAG คือ โมเดลภาษาขนาดใหญ่หลายรูปแบบ (Multimodal LLM) ที่สามารถประมวลผลข้อความและภาพ

สิ่งนี้ทำให้ระบบสามารถเข้าใจคำถามและให้คำตอบโดยอาศัยข้อมูลทั้งภาพและข้อความ

  1. โมเดลฝังข้อความ (Text Embedding Model):

เราใช้โมเดลฝังข้อความเพื่อแปลงข้อความเป็นเวกเตอร์ตัวเลข

เวกเตอร์เหล่านี้จับความหมายเชิงความหมายของข้อความ ทำให้สามารถเรียกค้นเอกสารที่เกี่ยวข้องได้อย่างมีประสิทธิภาพ

  1. โมเดลฝังภาพ (Image Embedding Model):

ในทำนองเดียวกัน โมเดลฝังภาพ (เช่น OpenAI CLIP) จะแปลงภาพเป็นเวกเตอร์ตัวเลข

สิ่งนี้ทำให้ระบบสามารถจัดทำดัชนีและเรียกค้นภาพตามเนื้อหาของภาพ ทำให้สามารถเชื่อมโยงระหว่างข้อมูลภาพและข้อความ

  1. ฐานความรู้ที่มีข้อความและภาพ:

ฐานความรู้ของเราคือการรวบรวมเอกสารข้อความและภาพ

ชุดข้อมูลหลายรูปแบบนี้เป็นพื้นฐานสำหรับระบบในการสร้างคำตอบ

  1. ห้องเก็บเวกเตอร์ที่รองรับเวกเตอร์หลายรูปแบบ:

ห้องเก็บเวกเตอร์ที่สามารถจัดการเวกเตอร์ข้อความและภาพได้ถือเป็นสิ่งสำคัญ

Qdrant เป็นตัวเลือกที่ดีมาก ฉันใช้มันบ่อยๆ!

  1. แม่แบบคำสั่ง:

เราสร้างแม่แบบคำสั่งที่รวมทั้งข้อความและบริบทภาพ

แม่แบบนี้ช่วยให้โมเดลภาษาขนาดใหญ่หลายรูปแบบสร้างคำตอบที่สอดคล้องกันโดยใช้ข้อความและภาพที่เรียกค้น

ขั้นตอนเหล่านี้ยังสรุปไว้ในภาพด้านล่าง


เราเริ่มคอร์สเรียนเร่งด่วนเกี่ยวกับการสร้างระบบ RAG และได้ตีพิมพ์ 4 ส่วน:

  1. ใน Part 1 เราได้สำรวจส่วนประกอบพื้นฐานของระบบ RAG, กระบวนการทำงาน RAG ทั่วไป และชุดเครื่องมือ และเรายังได้เรียนรู้การนำไปใช้

  2. ใน Part 2 เราได้เข้าใจวิธีการประเมินระบบ RAG (พร้อมการนำไปใช้)

  3. ใน Part 3 เราได้เรียนรู้เทคนิคเพื่อปรับปรุงระบบ RAG และจัดการเวกเตอร์หลายล้าน/หลายพันล้าน (พร้อมการนำไปใช้)

  4. ใน Part 4 เราได้สำรวจความสามารถหลายรูปแบบและครอบคลุมเทคนิคในการสร้างระบบ RAG บนเอกสารที่ซับซ้อน - เอกสารที่มีภาพ ตาราง และข้อความ (พร้อมการนำไปใช้)

โปรดทราบว่าเวอร์ชันภาษาไทยได้รับการช่วยเหลือจาก AI ดังนั้นอาจมีข้อผิดพลาดเล็กน้อย

ผู้เขียน

Ai Base Network (ABN), ABN ASIA ถูกก่อตั้งขึ้นโดยคนที่มีรากฐานลึกในวงการวิชาการ มีประสบการณ์การทำงานในสหรัฐอเมริกา ดัตช์ ฮังการี ญี่ปุ่น เกาหลีใต้ สิงคโปร์ และเวียดนาม ABN Asia เป็นที่เราพบกันของวิทยาลัยและเทคโนโลยี ด้วยโซลูชันขั้นสูงและบริการพัฒนาซอฟต์แวร์ที่มีความสามารถ เราช่วยธุรกิจเติบโตและเข้าสู่ฉากโลก ความมุ่งมั่นของเรา: ด่วนขึ้น ดีขึ้น น่าเชื่อถือมากขึ้น ในกรณีส่วนมาก: ราคาถูกด้วย

หากคุณต้องการบริการ IT การให้คำปรึกษาดิจิทัล โซลูชันซอฟต์แวร์ใช้ได้หรือหากคุณต้องการส่งคำขอข้อเสนอ (RFPs) อย่าลังเลที่จะติดต่อเรา คุณสามารถติดต่อเราได้ที่ [email protected] เราพร้อมช่วยเหลือคุณด้านทุกความต้องการทางเทคโนโลยีของคุณทุกเมื่อ

ABNAsia.org

© ABN ASIA