[ad_1]
Phát triển một chatbot có thể giải quyết các câu hỏi thực tế và đưa ra câu trả lời phù hợp, chính xác thực sự là một công việc khó khăn. Mặc dù đã có những tiến bộ đáng kể trong các mô hình ngôn ngữ lớn, nhưng một thách thức mở là kết hợp các mô hình này với nền tảng kiến thức để đưa ra những phản hồi đáng tin cậy và phù hợp với ngữ cảnh.
Các vấn đề chính hầu như luôn liên quan đến ảo giác (mô hình đang tạo ra thông tin sai hoặc không tồn tại) và hiểu biết theo ngữ cảnh, trong đó mô hình không thể hiểu được mối quan hệ sắc thái giữa các phần thông tin khác nhau. Những người khác đã cố gắng xây dựng các hệ thống Hỏi & Đáp mạnh mẽ nhưng không đạt được nhiều thành công vì các mô hình này thường trả về những câu trả lời tồi tệ, mặc dù chúng được kết nối với các cơ sở kiến thức toàn diện.
Mặc dù RAG có thể giảm ảo giác bằng cách kết nối phản hồi được tạo ra với dữ liệu trong thế giới thực, nhưng việc trả lời chính xác các câu hỏi phức tạp lại là một chuyện khác. Người dùng thường được chào đón bằng những câu trả lời như “Chủ đề xx không được đề cập rõ ràng trong văn bản được truy xuất” ngay cả khi cơ sở kiến thức chứa thông tin rõ ràng, mặc dù theo cách ít rõ ràng hơn. Đây là lúc GraphRAG (Thế hệ tăng cường truy xuất đồ thị) phát huy tác dụng, cải thiện khả năng của mô hình trong việc cung cấp các câu trả lời chính xác và phong phú theo ngữ cảnh bằng cách tận dụng các biểu đồ tri thức có cấu trúc.
RAG: Truy xuất và tạo cầu nối
RAG thể hiện một bước quan trọng trong việc kết hợp những ưu điểm tốt nhất của cả hai phương pháp dựa trên truy xuất và dựa trên thế hệ. Đưa ra một truy vấn, RAG truy xuất các tài liệu hoặc đoạn văn có liên quan từ một kho văn bản lớn và sau đó tạo ra câu trả lời với thông tin này. Do đó, người ta có thể chắc chắn rằng văn bản được tạo ra có thể mang tính thông tin và phù hợp với ngữ cảnh vì nó dựa trên dữ liệu thực tế.
Ví dụ, trong một câu hỏi như “Thủ đô của Phap la gi?” hệ thống RAG sẽ tìm trong kho dữ liệu của nó các tài liệu liên quan đến đất nước Pháp và đề cập đến thủ đô Paris của nước này. Nó sẽ truy xuất các đoạn có liên quan và trả lời bằng cách tạo ra một câu trả lời như “Thủ đô của Pháp là Paris.” Phong cách này rất phù hợp với một truy vấn đơn giản và các câu trả lời được ghi chép rõ ràng.
Tuy nhiên, RAG gặp khó khăn trong các truy vấn phức tạp hơn, đặc biệt là những truy vấn mà người ta cần hiểu mối quan hệ giữa các thực thể, khi những mối quan hệ này không rõ ràng trong các tài liệu được truy xuất. Hệ thống đang đi đến chỗ thất bại và sụp đổ với những câu hỏi như “Những đóng góp khoa học của thế kỷ 17 đã ảnh hưởng đến vật lý đầu thế kỷ 20 như thế nào?” (thêm về ví dụ này sau).
GraphRAG: Khai thác sức mạnh của đồ thị tri thức
GraphRAG, như được nêu lần đầu trong Weblog Nghiên cứu của Microsoft đây, nhằm mục đích khắc phục những hạn chế này bằng cách đưa các cơ chế truy xuất dựa trên đồ thị vào mô hình. Về cơ bản, nó tổ chức lại văn bản phi cấu trúc của cơ sở tri thức thành một biểu đồ tri thức có cấu trúc, trong đó các nút biểu thị các thực thể (ví dụ: con người, địa điểm, khái niệm) và các cạnh biểu thị mối quan hệ giữa các thực thể. Định dạng có cấu trúc này cho phép mô hình hiểu rõ hơn và sử dụng mối tương quan giữa các phần thông tin khác nhau.
Bây giờ chúng ta hãy đi vào chi tiết một chút để hiểu khái niệm về GraphRAG, so sánh với RAG, một cách dễ dàng.
Để bắt đầu, chúng ta hãy lấy một cơ sở kiến thức giả định bao gồm các câu từ các văn bản khoa học và lịch sử khác nhau như sau:
1. “Albert Einstein đã phát triển thuyết tương đối, thuyết này đã cách mạng hóa vật lý lý thuyết và thiên văn học.”
2. “Thuyết tương đối được hình thành vào đầu thế kỷ 20 và đã có tác động sâu sắc đến hiểu biết của chúng ta về không gian và thời gian.”
3. “Isaac Newton, nổi tiếng với các định luật về chuyển động và vạn vật hấp dẫn, đã đặt nền móng cho cơ học cổ điển.”
4. “Năm 1915, Einstein trình bày thuyết tương đối tổng quát, mở rộng công trình trước đó của ông về thuyết tương đối đặc biệt.”
5. “Công trình của Newton vào thế kỷ 17 đã cung cấp nền tảng cho phần lớn vật lý hiện đại.”
Trong hệ thống RAG, những câu này sẽ được lưu trữ dưới dạng văn bản phi cấu trúc. Và hỏi “Những đóng góp khoa học của thế kỷ 17 đã ảnh hưởng đến vật lý đầu thế kỷ 20 như thế nào?”chẳng hạn, có thể đặt hệ thống vào tình thế khó khăn nếu cụm từ chính xác và chất lượng truy xuất của tài liệu không liên kết ảnh hưởng thế kỷ 17 trực tiếp với vật lý đầu thế kỷ 20. RAG có thể đưa ra câu trả lời như “Công trình của Isaac Newton vào thế kỷ 17 đã cung cấp nền tảng cho phần lớn vật lý hiện đại. Albert Einstein đã phát triển thuyết tương đối vào đầu thế kỷ 20”, vì cơ chế này có thể truy xuất thông tin liên quan nhưng không thể giải thích rõ ràng ảnh hưởng của vật lý thế kỷ 17 đối với sự phát triển đầu thế kỷ 20.
Ngược lại, GraphRAG biến văn bản này thành một biểu đồ tri thức có cấu trúc. Biểu đồ tri thức thể hiện mối liên hệ giữa những thứ khác nhau như thế nào. Nó sử dụng một tập hợp các ontology, là một tập hợp các quy tắc để giúp tổ chức thông tin. Bằng cách này, nó có thể tìm thấy các kết nối ẩn chứ không chỉ những kết nối hiển nhiên.
Sử dụng hệ thống GraphRAG, cơ sở tri thức trước đó sẽ được chuyển đổi thành các nút và cạnh như sau.
Nodes: Albert Einstein, principle of relativity, theoretical physics, astronomy, early twentieth century, area, time, Isaac Newton, legal guidelines of movement, common gravitation, classical mechanics, 1915, common principle of relativity, particular relativity, seventeenth century, fashionable physics.
Edges:
- (Albert Einstein) - (developed) → (principle of relativity)
- (principle of relativity) - (revolutionized) → (theoretical physics)
- (principle of relativity) - (revolutionized) → (astronomy)
- (principle of relativity) - (formulated in) → (early twentieth century)
- (principle of relativity) - (impacted) → (understanding of area and time)
- (Isaac Newton) - (recognized for) → (legal guidelines of movement)
- (Isaac Newton) - (recognized for) → (common gravitation)
- (Isaac Newton) - (laid the groundwork for) → (classical mechanics)
- (common principle of relativity) - (offered by) → (Albert Einstein)
- (common principle of relativity) - (expanded on) → (particular relativity)
- (Newton's work) - (supplied basis for) → (fashionable physics)
Khi được nhắc với câu hỏi “Những đóng góp khoa học của thế kỷ 17 ảnh hưởng thế nào đến vật lý đầu thế kỷ 20?” Công cụ truy tìm dựa trên GraphRAG có thể nhận ra sự tiến triển từ công trình của Newton đến những tiến bộ của Einstein, nêu bật ảnh hưởng của vật lý thế kỷ 17 đối với sự phát triển đầu thế kỷ 20. Việc truy xuất có cấu trúc này cho phép câu trả lời trở nên phong phú và chính xác về mặt ngữ cảnh: “Các định luật về chuyển động và vạn vật hấp dẫn của Isaac Newton, được xây dựng vào thế kỷ 17, đã cung cấp nền tảng cho cơ học cổ điển. Những nguyên tắc này đã ảnh hưởng đến sự phát triển thuyết tương đối của Albert Einstein vào đầu thế kỷ 20, giúp mở rộng hiểu biết của chúng ta về không gian và thời gian.”
[ad_2]
Source link