- Xuất bản vào
Tại sao GraphRAG là một trong những hệ thống RAG tốt nhất?
- Tác giả
- Tên
- AbnAsia.org
- @steven_n_t
Cơ sở dữ liệu đồ thị nên là lựa chọn tốt hơn cho Tạo sinh tăng cường truy xuất (RAG)!
Các hệ thống RAG thường khá kém trong việc truy xuất đúng ngữ cảnh! Thông tin truy xuất rất cục bộ đối với các tài liệu gốc, và có thể khó khăn để lấy được các tài liệu thực sự liên quan đến truy vấn của người dùng. Đó là nơi Microsoft GraphRAG có thể cung cấp giải pháp!
Có 2 phần quan trọng. Đầu tiên, chúng ta sẽ tạo các bản tóm tắt của các tài liệu khác nhau ở các quy mô khác nhau. Bằng cách này, chúng ta sẽ có thể hiểu, tổng thể, thông tin toàn cầu nào được chứa trong các tài liệu đầy đủ, cũng như thông tin cục bộ chứa trong các đoạn văn bản nhỏ hơn. Thứ hai, chúng ta sẽ giảm thông tin văn bản thành dạng đồ họa của nó. Giả định là thông tin chứa trong văn bản có thể được biểu diễn dưới dạng một tập hợp các nút và cạnh. Điều này cho phép biểu diễn toàn bộ thông tin chứa trong văn bản dưới dạng một cơ sở tri thức có thể được lưu trữ trong cơ sở dữ liệu đồ thị.
Quy trình lập chỉ mục dữ liệu như sau:
- Chúng ta chia nhỏ các tài liệu gốc thành các đoạn văn bản con.
- Chúng ta trích xuất các thực thể, mối quan hệ của chúng, và mô tả của chúng dưới dạng cấu trúc bằng cách sử dụng một LLM.
- Chúng ta giải quyết các thực thể và mối quan hệ trùng lặp mà chúng ta có thể tìm thấy trên các đoạn văn bản khác nhau. Chúng ta có thể tóm tắt các mô tả khác nhau thành những mô tả đầy đủ hơn.
- Chúng ta xây dựng biểu diễn đồ thị của các thực thể và mối quan hệ của chúng.
- Từ đồ thị, chúng ta phân cụm các thực thể khác nhau thành các cộng đồng theo cách phân cấp bằng cách sử dụng thuật toán Leiden. Mỗi thực thể thuộc về nhiều cụm tùy thuộc vào quy mô của các cụm.
- Đối với mỗi cộng đồng, chúng ta tóm tắt nó bằng cách sử dụng mô tả thực thể và mối quan hệ. Chúng ta có nhiều bản tóm tắt cho mỗi thực thể đại diện cho các quy mô khác nhau của các cộng đồng.
Khi truy xuất, chúng ta có thể chuyển đổi truy vấn của người dùng bằng cách trích xuất từ khóa cho tìm kiếm từ vựng và biểu diễn vector cho tìm kiếm ngữ nghĩa. Từ tìm kiếm, chúng ta lấy các thực thể, và từ các thực thể, chúng ta lấy các bản tóm tắt cộng đồng liên quan của chúng. Những bản tóm tắt này được sử dụng làm ngữ cảnh trong lời nhắc khi tạo ra câu trả lời cho truy vấn của người dùng.
Chúng ta chỉ thực sự hiểu mọi thứ khi chúng ta thực hiện chúng.
TÁC GIẢ
Về ABN Asia: AiUTOMATING PEOPLE, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.
Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.
© ABN ASIA