[ad_1]
Bây giờ, hãy tập trung vào xác nhận nội bộ và xác thực bên ngoài. Dưới đây, tôi sẽ liệt kê một số số liệu mà tôi chọn kèm theo các siêu liên kết nơi bạn có thể theo dõi chi tiết các định nghĩa và công thức của chúng.
Vì tôi sẽ không đề cập đến các công thức cho các số liệu này nên người đọc nên theo dõi các siêu liên kết được cung cấp bên dưới để tìm hiểu chúng!
A. Số liệu được sử dụng để xác thực nội bộ
Mục tiêu của việc xác thực nội bộ là thiết lập chất lượng của cấu trúc phân cụm chỉ dựa trên tập dữ liệu đã cho.
Phân loại các phương pháp đánh giá nội bộ:
Các phương pháp xác nhận nội bộ có thể được phân loại phù hợp với các lớp phương pháp phân cụm. Một phân loại điển hình của phân cụm có thể được xây dựng như sau:
- Phương pháp phân vùng (ví dụ Okay-means),
- Các phương pháp phân cấp (ví dụ: phân cụm kết tụ),
- Các phương pháp cơ sở mật độ (ví dụ DBSCAN) và
- phần còn lại
Ở đây, tôi đề cập đến hai phần đầu tiên: phân cụm phân vùng và phân cụm theo cấp bậc.
a) Các phương pháp phân vùng: ví dụ Okay-means
Đối với các phương pháp phân vùng, có ba cơ sở đánh giá số liệu: sự gắn kết, sự tách biệt và sự kết hợp của chúng.
Sự gắn kết:
Sự gắn kết đánh giá mức độ gần gũi của cấu trúc dữ liệu cụm bên trong. Giá trị của số liệu gắn kết càng thấp thì chất lượng của các cụm càng tốt. Một ví dụ về số liệu gắn kết là:
- SSW: Tổng số lỗi bình phương trong cụm.
Tách biệt:
Sự phân tách là một số liệu liên cụm và đánh giá độ phân tán của cấu trúc dữ liệu giữa các cụm. Ý tưởng đằng sau thước đo phân tách là tối đa hóa khoảng cách giữa các cụm. Một ví dụ về số liệu gắn kết là:
- SSB: Tổng số lỗi bình phương giữa các cụm.
Sự kết hợp của cả sự gắn kết và tách biệt:
Kiểu kết hợp định lượng mức độ tách biệt và gắn kết trong một số liệu duy nhất. Dưới đây là danh sách các ví dụ:
Tôi) Hệ số bóng: trong khoảng (-1, 1)
Số liệu này là thước đo tương đối về khoảng cách giữa các cụm với cụm lân cận.
Dưới đây là cách giải thích chung về số liệu:
- Giá trị tốt nhất: 1
- Giá trị tệ nhất: -1.
- Giá trị gần 0: các cụm chồng chéo.
- Giá trị âm: khả năng cao là một mẫu được gán vào một cụm sai.
Dưới đây là ví dụ về trường hợp sử dụng của số liệu: https://www.geeksforgeeks.org/silhouette-index-cluster-validity-index-set-2/?ref=ml_lbp
Còn được gọi là Tiêu chí Tỷ lệ Phương sai, số liệu này đo lường tỷ lệ giữa tổng độ phân tán giữa các cụm và độ phân tán trong cụm cho tất cả các cụm.
Đối với một cụm được gán nhất định, giá trị của số liệu càng cao thì kết quả phân cụm càng tốt: vì giá trị cao hơn cho thấy rằng các cụm kết quả là nhỏ gọn và được phân tách rõ ràng.
Dưới đây là ví dụ về trường hợp sử dụng của số liệu: https://www.geeksforgeeks.org/dunn-index-and-db-index-cluster-validity-indices-set-1/?ref=ml_lbp
iii) Chỉ số Dann:
Đối với một phân cụm nhất định, chỉ số Dunn cao hơn cho thấy phân cụm tốt hơn.
Dưới đây là ví dụ về trường hợp sử dụng của số liệu: https://www.geeksforgeeks.org/dunn-index-and-db-index-cluster-validity-indices-set-1/?ref=ml_lbp
Số liệu đo lường tỷ lệ giữa độ tương tự trong cụm và độ tương tự giữa các cụm. Về mặt logic, số liệu cao hơn gợi ý cấu trúc nội bộ dày đặc hơn và cấu trúc liên cụm tách biệt hơn, do đó, kết quả phân cụm tốt hơn.
Dưới đây là ví dụ về trường hợp sử dụng của số liệu: https://www.geeksforgeeks.org/davies-bouldin-index/
b) Phương pháp phân cấp: ví dụ thuật toán phân cụm kết tụ
i) Đánh giá của con người dựa trên sự thể hiện trực quan của dendrogram.
Mặc dù Palacio-Niño & Berzal không có sự phán xét của con người; nó là một trong những công cụ hữu ích nhất để xác thực nội bộ cho việc phân cụm theo cấp bậc dựa trên chương trình dendrogram.
Thay vào đó, các đồng tác giả đã liệt kê hai số liệu hệ số tương quan sau đây chuyên dùng để đánh giá kết quả của việc phân cụm theo cấp bậc.
Đối với cả hai, giá trị cao hơn cho thấy kết quả tốt hơn. Cả hai đều nhận giá trị trong khoảng (-1, 1).
ii) Hệ số tương quan Cophenetic (CPCC): (-1, 1)
Nó đo khoảng cách giữa các quan sát trong phân cụm theo cấp bậc được xác định bởi liên kết.
iii) Thống kê Hubert: (-1, 1)
Giá trị Hubert cao hơn tương ứng với việc phân cụm dữ liệu tốt hơn.
c) Hạng mục tiềm năng: Học tập tự giám sát
Học tự giám sát có thể tạo ra các biểu diễn đặc trưng có thể được sử dụng để phân cụm. Việc học tự giám sát không có nhãn rõ ràng trong tập dữ liệu mà sử dụng chính dữ liệu đầu vào làm nhãn cho việc học. Palacio-Niño & Berzal không bao gồm khung tự giám sát, chẳng hạn như bộ mã hóa tự động và GAN, cho đề xuất của họ trong phần này. Chà, bản thân chúng không phải là thuật toán phân cụm. Tuy nhiên, tôi sẽ giữ tên miền cụ thể này chờ ghi chú của mình. Thời gian sẽ trả lời liệu có bất kỳ số liệu chuyên biệt nào xuất hiện từ miền cụ thể này hay không.
Trước khi kết thúc phần xác thực nội bộ, đây là lời cảnh báo từ Gere (2023).
“Việc chọn thuật toán phân cụm theo cấp bậc phù hợp và số lượng cụm luôn là một câu hỏi quan trọng… . Trong nhiều trường hợp, các nhà nghiên cứu không công bố bất kỳ lý do nào khiến nó được chọn làm thước đo khoảng cách và quy tắc liên kết nhất định cùng với số cụm. Lý do đằng sau điều này có thể là các kỹ thuật so sánh và xác thực cụm khác nhau cho kết quả trái ngược nhau trong hầu hết các trường hợp. … Kết quả của các phương pháp xác thực có sai lệch, cho thấy rằng việc phân cụm phụ thuộc rất nhiều vào tập dữ liệu được đề cập. Mặc dù khoảng cách Euclide, phương pháp của Ward có vẻ là một lựa chọn an toàn, việc thử nghiệm và xác nhận các kết hợp phân cụm khác nhau được đề xuất mạnh mẽ.”
Vâng, đó là một nhiệm vụ khó khăn.
Bây giờ, hãy chuyển sang xác nhận bên ngoài.
[ad_2]
Source link