Xuất bản vào

RAG đa phương thức, giải thích bằng hình ảnh 👇

Tác giả

Các hệ thống RAG Vanilla hoạt động tốt trên các tài liệu văn bản. Nhưng các tài liệu trong thế giới thực chứa văn bản + hình ảnh + bảng biểu, và nhiều thứ khác. Vậy phải làm gì khi đó?

Image

Xử lý dữ liệu đa phương thức như vậy giới thiệu thêm những thách thức trong việc phân tích cú pháp, nhúng và truy xuất.

Hệ thống RAG đa phương thức được xây dựng để xử lý nhiều loại dữ liệu và thực hiện RAG.

Hãy hiểu một số thành phần chính của nó và cách chúng hoạt động cùng nhau để thực hiện điều này.

  1. Mô hình Ngôn ngữ Lớn Đa phương thức (LLM):

Trái tim của RAG Đa phương thức là một LLM Đa phương thức có khả năng xử lý cả văn bản và hình ảnh.

Điều này cho phép trợ lý hiểu các truy vấn và cung cấp phản hồi dựa trên cả thông tin hình ảnh và văn bản.

  1. Mô hình Nhúng Văn bản:

Chúng tôi sử dụng mô hình nhúng văn bản để chuyển đổi dữ liệu văn bản thành các vector số.

Những nhúng này nắm bắt ý nghĩa ngữ nghĩa của văn bản, cho phép truy xuất hiệu quả các tài liệu liên quan.

  1. Mô hình Nhúng Hình ảnh:

Tương tự, một mô hình nhúng hình ảnh (ví dụ: OpenAI CLIP) chuyển đổi hình ảnh thành các vector số.

Điều này cho phép hệ thống lập chỉ mục và truy xuất hình ảnh dựa trên nội dung của chúng, thu hẹp khoảng cách giữa dữ liệu hình ảnh và văn bản.

  1. Cơ sở Kiến thức với Văn bản và Hình ảnh:

Cơ sở kiến thức của chúng tôi là một tập hợp các tài liệu văn bản và hình ảnh.

Tập dữ liệu đa phương thức này cung cấp nền tảng cho trợ lý khi tạo ra các phản hồi.

  1. Kho Vector Hỗ trợ Nhúng Đa phương thức:

Một kho vector có thể xử lý cả nhúng văn bản và hình ảnh là rất quan trọng.

Qdrant là một lựa chọn thực sự tuyệt vời, tôi thường xuyên sử dụng nó!

  1. Mẫu Gợi ý:

Chúng tôi tạo một mẫu gợi ý kết hợp cả ngữ cảnh văn bản và hình ảnh.

Mẫu này hướng dẫn LLM Đa phương thức tạo ra các phản hồi mạch lạc bằng cách sử dụng văn bản và hình ảnh đã truy xuất.

Các bước cũng được tóm tắt trong hình ảnh dưới đây.


Chúng tôi gần đây đã bắt đầu một khóa học cấp tốc về xây dựng hệ thống RAG và đã xuất bản bốn phần:

  1. Trong Phần 1, chúng tôi đã khám phá các thành phần cơ bản của hệ thống RAG, quy trình làm việc RAG điển hình, và ngăn xếp công cụ, và cũng đã học cách triển khai.

  2. Trong Phần 2, chúng tôi đã hiểu cách đánh giá hệ thống RAG (với triển khai).

  3. Trong Phần 3, chúng tôi đã học các kỹ thuật để tối ưu hóa hệ thống RAG và xử lý hàng triệu/tỷ vector (với triển khai).

  4. Trong Phần 4, chúng tôi đã khám phá tính đa phương thức và bao gồm các kỹ thuật để xây dựng hệ thống RAG trên các tài liệu phức tạp—những tài liệu có hình ảnh, bảng biểu và văn bản (với triển khai).

TÁC GIẢ

Về ABN Asia: AiUTOMATING PEOPLE, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software