[ad_1]
Xin chào những người đam mê dữ liệu! Tôi rất muốn chia sẻ với các bạn những gì tôi đã học được sau 3 năm phát triển các mô hình học máy để dự đoán gian lận trong ngành tài chính trong một vài bài viết. Vì vậy, nếu bạn đóng bất kỳ vai trò nào là quản lý dự án, nhà khoa học dữ liệu, kỹ sư ML, kỹ sư dữ liệu, kỹ sư Mlops, nhà phân tích gian lận hoặc quản lý sản phẩm trong một dự án phát hiện gian lận, bạn có thể thấy bài viết này hữu ích.
Trong bài viết đầu tiên của loạt bài này, tôi muốn đề cập đến những điểm sau:
- Vấn đề kinh doanh cần giải quyết là gì?
- Các bước cấp cao của dự án
Mỗi ngày, hàng triệu người sử dụng dịch vụ chuyển tiền trên toàn thế giới. Các dịch vụ này giúp chúng ta gửi tiền cho người thân và giúp việc mua sắm dễ dàng hơn. Nhưng những kẻ lừa đảo sử dụng các hệ thống này để lừa người khác gửi tiền cho chúng hoặc chiếm đoạt tài khoản của chúng để lừa đảo. Điều này gây tổn hại cho cả nạn nhân và các công ty liên quan, gây ra tổn thất tài chính và làm tổn hại đến danh tiếng. Hơn nữa, còn có những tác động về mặt quy định và tuân thủ đối với các công ty và các bên chịu trách nhiệm trong hệ thống (Ví dụ, Western Union đã bị phạt 586 triệu đô la vào năm 2017 vì không duy trì hệ thống chống rửa tiền và gian lận người tiêu dùng hiệu quả ). Việc dự đoán các giao dịch gian lận trước khi tiền rơi vào tay kẻ gian là rất quan trọng đối với các công ty. Đây là lúc các công cụ quản lý gian lận do AI/ML thúc đẩy phát huy tác dụng.
Mục tiêu chủ yếu của công ty là giảm thiểu chi phí hoạt động, cải thiện trải nghiệm của khách hàng hoặc giảm gian lận và tổn thất.
Có nhiều loại gian lận trong bối cảnh này như:
- Lạm dụng người già
- Người Samari tốt bụng
- lừa đảo tình cảm
- lừa đảo người tiêu dùng
- tài khoản nóng lên
- hành vi trộm cắp danh tính
- Tiếp quản tài khoản (ATO)
- Rửa tiền
Nếu bạn muốn tìm hiểu thêm về từng loại gian lận cụ thể, đây là một số liên kết hữu ích: Sáu loại gian lận thanh toán, Lừa đảo chuyển tiền
Các dự án ML/AI thường được thực hiện theo cách lặp đi lặp lại. Nhưng 9 bước dưới đây là điểm khởi đầu tốt cho các dự án theo kinh nghiệm của tôi.
1. Hiểu hệ thống hiện tại
Hệ thống hiện tại bao gồm con người, quy trình và hệ thống.
Con người: Xác định những cá nhân chủ chốt có chuyên môn trong lĩnh vực quản lý gian lận. Xác định vai trò của họ và cách họ có thể đóng góp cho dự án. Ví dụ, các nhà phân tích gian lận chuyên gia có thể đóng góp đáng kể bằng cách xác định các yếu tố gian lận và xác định xu hướng.
Quy trình: Phân tích cách công ty hiện đang xác định gian lận và cách công ty đo lường hiệu quả của nó.
Hệ thống: Đánh giá các hệ thống hiện đang được sử dụng để phát hiện gian lận. Nhiều công ty có thể có hệ thống chuyên gia dựa trên quy tắc hiện có.
2. Xác định mục tiêu của các bên liên quan
Điều quan trọng là phải hiểu các mục tiêu khác nhau của các bên liên quan để thống nhất chúng và làm rõ kỳ vọng ngay từ đầu. Ví dụ, theo quan điểm của nhóm tuân thủ, tỷ lệ phát hiện gian lận cao là mong muốn, trong khi nhóm tiếp thị có thể quan tâm nhiều hơn đến tác động của các kết quả dương tính giả đối với trải nghiệm của khách hàng. Trong khi đó, nhóm vận hành có thể yêu cầu một SLA cụ thể về thời gian dự đoán để đảm bảo hoạt động diễn ra suôn sẻ. Việc tối ưu hóa tất cả các mục tiêu có khả năng xung đột này trong một giai đoạn của dự án là không hiệu quả. Do đó, sự hỗ trợ của ban lãnh đạo là điều cần thiết để thiết lập các ưu tiên và tìm ra tiếng nói chung.
3- Hiểu dữ liệu
Bạn chắc chắn đã nghe câu nói nổi tiếng: “vào rác, ra rác”. Để tránh đưa dữ liệu kém chất lượng vào mô hình ML, chúng ta cần phân tích các nguồn dữ liệu và chất lượng của chúng để đảm bảo chúng đáp ứng cả yêu cầu thử nghiệm và tiêu chuẩn phát trực tuyến. Xác định các hạn chế trong dữ liệu hiện có và nêu rõ tác động của chúng đến chất lượng dự đoán. Bước này rất quan trọng để duy trì tính toàn vẹn và độ chính xác của đầu ra của mô hình.
4- Định nghĩa về cờ đỏ
Các khối xây dựng của mô hình ML là các tính năng. Trong bối cảnh dự đoán gian lận, các tính năng này chủ yếu đại diện cho các hành vi gian lận hoặc cờ đỏ. Ở giai đoạn này, chúng tôi trích xuất kiến thức ngầm của các chuyên gia về gian lận và chuyển nó thành danh sách các cờ đỏ, sau đó được phát triển thành các tính năng để đưa vào mô hình.
Ví dụ, các dấu hiệu cảnh báo có thể là: Số lượng giao dịch mà khách hàng gửi đến quốc gia có rủi ro cao, Số lượng lớn khách hàng riêng biệt gửi tiền cho một người trong thời gian ngắn, v.v.
5- Tạo tính năng / Kỹ thuật
Ở giai đoạn này, các cờ đỏ được xác định được mã hóa thành các tính năng. Có thể xác định nhiều nhóm tính năng khác nhau, chẳng hạn như tính năng chuyển tiền, mẫu giao dịch và số liệu về hành vi của người dùng. Kỹ thuật tính năng là bước quan trọng trong việc đưa ra các tính năng thông tin nhất giúp phân biệt gian lận với không gian lận. Quá trình này bao gồm việc lựa chọn, sửa đổi và tạo các tính năng mới để cải thiện độ chính xác và sức mạnh dự đoán của mô hình.
6. Đào tạo và kiểm tra mô hình
Trong bước này, mục tiêu là điều chỉnh một mô hình học máy hoặc các mô hình để dự đoán gian lận với độ chính xác hợp lý. Mức độ chính xác mong muốn phụ thuộc vào yêu cầu kinh doanh và mức độ cải thiện cần thiết so với hệ thống cơ sở (đây là nơi các mục tiêu được xác định trong bước hai được tham chiếu).
7. Vận hành theo thời gian thực
Tất cả các bước trước đó đều được thực hiện trong môi trường ngoại tuyến, hàng loạt. Khi mô hình đã sẵn sàng, nó phải được triển khai trong sản xuất để các dự đoán của nó có thể phục vụ các hệ thống hạ nguồn theo thời gian thực (ít hơn một giây trong các dự án của chúng tôi). Nhóm MLOps chịu trách nhiệm cho bước này, tối ưu hóa thời gian chạy của đường ống và đảm bảo tích hợp liền mạch với các hệ thống khác.
8. Giám sát thời gian thực
Sau khi các dự đoán của mô hình được tích hợp vào các hệ thống thời gian thực và được nhóm vận hành sử dụng, điều quan trọng là phải theo dõi chặt chẽ hiệu suất. Mục tiêu là đảm bảo rằng hiệu suất thời gian thực phù hợp với các kết quả mong đợi được thử nghiệm trong môi trường hàng loạt. Nếu phát sinh sự khác biệt, điều cần thiết là phải xác định và giải quyết các vấn đề cơ bản. Ví dụ, việc theo dõi phải bao gồm theo dõi số lượng giao dịch được mô hình xử lý, số lượng giao dịch được dự đoán là gian lận và hành trình tiếp theo của các giao dịch này. Ngoài ra, hiệu suất của chính đường ống phải được theo dõi để đảm bảo dịch vụ được thiết lập và chạy như mong đợi.
9. Thiết lập quy trình vòng phản hồi
Việc thiết lập quy trình vòng phản hồi là điều cần thiết để liên tục đánh giá hiệu suất của mô hình và tinh chỉnh nó cho phù hợp. Quy trình này bao gồm việc đưa nhãn thực tế trở lại hệ thống, cùng với bất kỳ thông tin bổ sung có liên quan nào. Ví dụ, nếu mô hình đánh dấu các giao dịch là gian lận, điều quan trọng là phải theo dõi có bao nhiêu giao dịch trong số này đã được điều tra và kết quả của các cuộc điều tra đó. Tương tự như vậy, thông tin chi tiết từ nhóm đảm bảo chất lượng, bao gồm cả các lý do tiềm ẩn cho kết quả dương tính giả, nên được đưa trở lại hệ thống để tăng cường quy trình vòng phản hồi. Phương pháp lặp đi lặp lại này đảm bảo cải tiến và tối ưu hóa liên tục mô hình phát hiện gian lận.
Trong bài viết tiếp theo, chúng ta sẽ xem xét các vai trò khác nhau liên quan đến dự án này. Hãy cho tôi biết trải nghiệm của bạn như thế nào? Điểm giống hoặc khác nhau giữa trải nghiệm của bạn và tôi là gì?
[ad_2]
Source link