[ad_1]
Độ phân giải thực thể là một quá trình. Biểu đồ tri thức là một tạo tác kỹ thuật. Và sự kết hợp của cả hai mang lại một trong những công cụ tổng hợp dữ liệu mạnh mẽ nhất mà chúng ta có trong lĩnh vực biểu diễn và suy luận kiến thức. Gần đây, ERKG đã đi vào tường thuật về kiến trúc dữ liệu, đặc biệt là đối với các tổ chức phân tích muốn tất cả dữ liệu trong một miền nhất định được kết nối ở một nơi để điều tra. Bài viết này sẽ giải thích Sơ đồ tri thức đã được giải quyết thực thể, ER, KG và một số chi tiết về việc triển khai chúng.
ER. Phân giải thực thể (còn gọi là phân giải danh tính, khớp dữ liệu hoặc liên kết bản ghi) là quá trình tính toán trong đó các thực thể được loại bỏ trùng lặp và/hoặc liên kết trong một tập dữ liệu. Điều này có thể đơn giản như việc giải quyết hai bản ghi trong cơ sở dữ liệu, một bản ghi được liệt kê là Tom Riddle và một bản ghi được liệt kê là TM Riddle. Hoặc nó có thể phức tạp như một người sử dụng bí danh (Chúa tể Voldemort), các số điện thoại khác nhau và nhiều địa chỉ IP để thực hiện hành vi lừa đảo ngân hàng.
KILÔGAM. Biểu đồ tri thức là một dạng biểu diễn tri thức trình bày dữ liệu một cách trực quan dưới dạng các thực thể và mối quan hệ giữa chúng. Các thực thể có thể là con người, công ty, khái niệm, tài sản vật chất, vị trí địa lý, v.v. Các mối quan hệ có thể là trao đổi thông tin, liên lạc, du lịch, giao dịch ngân hàng, giao dịch tính toán, v.v. Các thực thể và mối quan hệ được lưu trữ trong cơ sở dữ liệu đồ thị, được nối trước và được biểu diễn trực quan như các nút và các cạnh. Nó trông giống như thế này…
Như vậy…
ERKG. Biểu đồ tri thức chứa nhiều tập dữ liệu trong đó các thực thể được kết nối và loại bỏ trùng lặp. Nói cách khác, không có thực thể trùng lặp nào (các nút cho Tom Riddle và TM Riddle đã được phân giải thành một nút duy nhất). Ngoài ra, các kết nối tiềm ẩn đã được phát hiện giữa các nút có khả năng liên quan trong một số ngưỡng xác suất có thể chấp nhận được (ví dụ: Tom Riddle, Lord Voldemort và Marvolo Riddle. Tại thời điểm này, bạn có thể hỏi, “tại sao bạn lại tạo biểu đồ tri thức từ nhiều nguồn dữ liệu?” cái đó không phải thực thể được giải quyết? Câu trả lời đơn giản là, “bạn sẽ không.” Điều đó cho thấy, các phương pháp giải quyết các thực thể và các công nghệ có sẵn để biểu diễn đồ thị khiến việc tạo ERKG trở thành một nhiệm vụ khó khăn.
Đây là ERKG đầu tiên chúng tôi thực hiện.
Trở lại năm 2016, chúng tôi đã đưa hai tập dữ liệu vào cơ sở dữ liệu biểu đồ: 1) các cá nhân trong danh sách trừng phạt quốc tế của Văn phòng Kiểm soát Tài sản Nước ngoài (OFAC) (màu xanh) và 2) khách hàng của một công ty sẽ được giấu tên (màu hồng). Rõ ràng, mục đích của công ty là khám phá xem có bất kỳ khách hàng nào của họ là những cá nhân bị quốc tế trừng phạt mà không thực hiện tìm kiếm thủ công cơ sở dữ liệu của OFAC hay không. Mặc dù quy trình ER mà biểu đồ này thể hiện có thể là quá mức cần thiết cho nhiệm vụ, nhưng nó là minh họa.
Phần lớn các thực thể được phân giải trong biểu đồ là từ hai đến ba cá nhân ở trong cùng một tập dữ liệu (xanh sang xanh hoặc hồng sang hồng). Chúng có thể đại diện cho các bản ghi trùng lặp (vấn đề Tom Riddle so với TM Riddle mà chúng ta đã nói đến trước đó). Trong một số trường hợp, sự trùng lặp xảy ra rất nhiều, giống như các cụm màu hồng ở gần đầu hình ảnh. Ở đây, chúng ta thấy rằng một người được thể hiện bằng 5–10 bản ghi riêng biệt trong tập dữ liệu khách hàng. Vì vậy, ít nhất, chúng tôi thấy rằng công ty đang cần một quy trình chống trùng lặp trong kho dữ liệu khách hàng của chính mình.
Điểm thú vị nằm ở mối quan hệ giữa màu xanh và màu hồng mà chúng ta thấy được xác định ở đầu hình ảnh. Đây chính là điều công ty đang tìm kiếm: các nghị quyết về thực thể sang bộ dữ liệu. Một số khách hàng của nó có thể là những cá nhân bị quốc tế trừng phạt.
Ví dụ này khá đơn giản và có thể khiến người ta kết luận sai rằng việc xây dựng ERKG là một công việc đơn giản. Đó là bất cứ điều gì nhưng đơn giản. Đặc biệt nếu nó cần mở rộng quy mô trên vài terabyte dữ liệu và nhiều người dùng phân tích.
Các thuật toán xử lý ngôn ngữ tự nhiên (NLP) nhẹ (như kỹ thuật kết hợp mờ) đủ đơn giản để thực hiện. Những thứ này có thể dễ dàng giải quyết vấn đề Tom Riddle so với TM Riddle. Nhưng khi một người tìm cách kết hợp nhiều hơn hai tập dữ liệu, có thể có nhiều ngôn ngữ và ký tự quốc tế, quy trình NLP đơn giản sẽ trở nên khá phức tạp.
Các giải pháp ER tiên tiến hơn cũng được yêu cầu cho các bộ vấn đề phân tích nâng cao hơn như chống rửa tiền hoặc gian lận ngân hàng. Đối sánh mờ không đủ để xác định thủ phạm đang cố tình che giấu danh tính của mình bằng nhiều bí danh và cố gắng trốn tránh các lệnh trừng phạt hoặc các quy định khác. Để làm được điều này, quy trình ER phải bao gồm các phương pháp tiếp cận dựa trên máy học và các phương pháp phức tạp hơn có tính đến siêu dữ liệu bổ sung ngoài tên. Đó không phải là tất cả NLP.
Ngoài ra còn có rất nhiều tranh luận xung quanh ER dựa trên đồ thị so với ER ở cấp độ tập dữ liệu. Để phân tích dựa trên biểu đồ có độ chính xác cao nhất, cả hai đều được yêu cầu. Giải quyết các thực thể ở trong Và sang các tập dữ liệu khi các tập dữ liệu đó được đưa vào cơ sở dữ liệu biểu đồ 1) giảm thiểu các hoạt động quy mô lớn trên biểu đồ vốn tốn kém về mặt tính toán và 2) đảm bảo rằng biểu đồ chỉ chứa các thực thể đã phân giải (không trùng lặp) khi bắt đầu, điều này cũng giúp tiết kiệm chi phí rất lớn cho kiến trúc đồ thị tổng thể.
Sau khi tồn tại biểu đồ tri thức được phân giải bằng thực thể, các nhóm khoa học dữ liệu có thể khám phá thêm ER bổ sung thông qua các kỹ thuật ER dựa trên biểu đồ. Các kỹ thuật này còn có thêm lợi ích là tận dụng cấu trúc liên kết biểu đồ (tức là cấu trúc vốn có của chính biểu đồ) như một tính năng để dự đoán các kết nối tiềm ẩn trên các bộ dữ liệu kết hợp.
ERKG có thể là một công cụ phân tích mạnh mẽ và trực quan. Nó cung cấp:
- Kết hợp nhiều bộ dữ liệu vào cơ sở dữ liệu đồ thị chính
- Biểu đồ kiến thức theo miền cụ thể được trình bày trực quan để các nhà phân tích khám phá
- Khả năng chỉ định một lược đồ biểu đồ sống thể hiện cách dữ liệu được kết nối và trình bày cho các nhà phân tích
- Trình bày trực quan về việc loại bỏ trùng lặp dữ liệu và các kết nối rõ ràng trong và trên các tập dữ liệu
- Các kết nối tiềm ẩn (liên kết được dự đoán) trong và trên các bộ dữ liệu với khả năng kiểm soát ngưỡng xác suất của dự đoán
Sau đó, ERKG trở thành khung phân tích để vẽ nên hoạt động khám phá được kết nối chặt chẽ với nhau về một miền nhất định được thể hiện thông qua nhiều bộ dữ liệu. Đó là một giải pháp hợp nhất dữ liệu và là một giải pháp rất trực quan với con người.
[ad_2]
Source link