Multimodal RAG, dijelaskan secara visual 👇

Sistem RAG Vanilla bekerja dengan baik pada dokumen teks. Namun, dokumen dunia nyata mengandung teks + gambar + tabel, dan sebagainya. Lalu apa yang harus dilakukan?

Mengelola data multimodal seperti itu memperkenalkan tantangan tambahan dalam parsing, embedding, dan pengambilan.

Sistem Multimodal RAG dibangun untuk menangani beberapa jenis data dan melakukan RAG.

Mari kita pahami beberapa komponen kunci dan bagaimana mereka bekerja bersama untuk membuat ini terjadi.

Model Bahasa Besar Multimodal (LLM):

Di jantung Multimodal RAG adalah Model Bahasa Besar Multimodal yang dapat memproses teks dan gambar.

Hal ini memungkinkan asisten untuk memahami pertanyaan dan memberikan respons berdasarkan informasi visual dan tekstual.

Model Embedding Teks:

Kami menggunakan model embedding teks untuk mengubah data tekstual menjadi vektor numerik.

Embedding ini menangkap makna semantik teks, memungkinkan pengambilan dokumen yang relevan dengan efisien.

Model Embedding Gambar:

Demikian pula, model embedding gambar (misalnya OpenAI CLIP) mengubah gambar menjadi vektor numerik.

Hal ini memungkinkan sistem untuk mengindeks dan mengambil gambar berdasarkan kontennya, menjembatani kesenjangan antara data visual dan tekstual.

Basis Pengetahuan dengan Teks dan Gambar:

Basis pengetahuan kami adalah koleksi dokumen teks dan gambar.

Dataset multimodal ini menyediakan dasar bagi asisten untuk mengambil ketika menghasilkan respons.

Toko Vektor yang Mendukung Embedding Multimodal:

Toko vektor yang dapat menangani embedding teks dan gambar sangat penting.

Qdrant adalah pilihan yang sangat baik, saya sering menggunakannya!

Template Prompt:

Kami membuat template prompt yang menggabungkan konteks tekstual dan visual.

Template ini membimbing Model Bahasa Besar Multimodal untuk menghasilkan respons yang koheren menggunakan teks dan gambar yang diambil.

Langkah-langkah ini juga dirangkum dalam visual di bawah.

Kami baru-baru ini memulai kursus singkat tentang membangun sistem RAG dan telah menerbitkan empat bagian:

Di Bagian 1, kami menjelajahi komponen dasar sistem RAG, alur kerja RAG yang biasa, dan tumpukan alat, dan juga mempelajari implementasinya.
Di Bagian 2, kami memahami bagaimana mengevaluasi sistem RAG (dengan implementasi).
Di Bagian 3, kami mempelajari teknik untuk mengoptimalkan sistem RAG dan menangani jutaan/miliaran vektor (dengan implementasi).
Di Bagian 4, kami menjelajahi multimodalitas dan menutupi teknik untuk membangun sistem RAG pada dokumen yang kompleks - yang memiliki gambar, tabel, dan teks (dengan implementasi).

Harap dicatat bahwa versi bahasa Indonesia didukung oleh AI dan karena itu mungkin terjadi kesalahan kecil.

Penulis

Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.

Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.