[ad_1]
Hướng dẫn thực tế để đánh giá và quyết định dữ liệu hiệu quả nhằm làm giàu và cải thiện mô hình của bạn
Tôi đã từng là Phó Giám đốc Khoa học Dữ liệu, AI và Nghiên cứu trong 5 năm qua tại hai công ty giao dịch đại chúng. Trong cả hai vai trò, AI đều đóng vai trò trung tâm trong sản phẩm cốt lõi của công ty. Chúng tôi hợp tác với các nhà cung cấp dữ liệu, những người đã làm phong phú dữ liệu của chúng tôi bằng các tính năng có liên quan nhằm cải thiện hiệu suất mô hình của chúng tôi. Sau khi trải qua những thất bại với các nhà cung cấp dữ liệu, bài viết này sẽ giúp bạn tiết kiệm thời gian và tiền bạc khi thử nghiệm các nhà cung cấp mới.
Cảnh báo: Đừng bắt đầu quá trình này cho đến khi bạn có các số liệu kinh doanh rất rõ ràng cho mô hình của mình và bạn đã dành một khoảng thời gian kha khá để tối ưu hóa mô hình của mình. Làm việc với hầu hết các nhà cung cấp dữ liệu lần đầu tiên thường là một quá trình dài (tốt nhất là hàng tuần, nhưng thường là hàng tháng) và có thể rất tốn kém (một số nhà cung cấp dữ liệu mà tôi từng làm việc có chi phí hàng chục nghìn đô la một năm, một số khác thì tốn kém hơn). lên tới hàng triệu đô la hàng năm khi hoạt động ở quy mô lớn).
Vì đây thường là một khoản đầu tư lớn, thậm chí đừng bắt đầu quá trình trừ khi bạn có thể hình dung rõ ràng quyết định đi/không đi sẽ diễn ra như thế nào. Đây là lỗi số 1 tôi từng thấy, vì vậy vui lòng đọc lại câu đó. Đối với tôi, điều này luôn đòi hỏi phải chuyển đổi tất cả các quyết định đầu vào thành đô la.
Ví dụ: chỉ số hiệu suất mô hình của bạn có thể là PRAUC của mô hình phân loại dự đoán gian lận. Giả sử PRAUC của bạn tăng từ 0,9 lên 0,92 với dữ liệu mới được thêm vào, đây có thể là một cải tiến to lớn theo quan điểm khoa học dữ liệu. Tuy nhiên, chi phí là 25 xu cho mỗi cuộc gọi. Để tìm ra liệu điều này có đáng không, bạn sẽ cần chuyển đổi PRAUC gia tăng thành đô la biên lợi nhuận. Giai đoạn này có thể mất thời gian và đòi hỏi phải hiểu rõ về mô hình kinh doanh. Chính xác thì PRAUC cao hơn chuyển thành doanh thu/biên lợi nhuận cao hơn cho công ty của bạn như thế nào? Đối với hầu hết các nhà khoa học dữ liệu, điều này không phải lúc nào cũng đơn giản.
Bài đăng này sẽ không đề cập đến mọi khía cạnh khi lựa chọn nhà cung cấp dữ liệu (ví dụ: chúng ta sẽ không thảo luận về việc đàm phán hợp đồng) nhưng sẽ đề cập đến những khía cạnh chính mà bạn cần lưu ý với tư cách là người dẫn đầu khoa học dữ liệu.
Nếu có vẻ như bạn là người ra quyết định và công ty của bạn hoạt động ở quy mô lớn, bạn rất có thể sẽ nhận được e-mail lạnh từ các nhà cung cấp theo định kỳ. Mặc dù một nhà cung cấp ngẫu nhiên có thể có một số giá trị, nhưng tốt nhất là bạn nên trao đổi với các chuyên gia trong ngành và hiểu những nhà cung cấp dữ liệu nào thường được sử dụng trong ngành đó. Có những hiệu ứng mạng to lớn và tính kinh tế theo quy mô khi làm việc với dữ liệu, vì vậy, các nhà cung cấp lớn nhất, nổi tiếng nhất thường có thể mang lại nhiều giá trị hơn. Đừng tin tưởng các nhà cung cấp cung cấp giải pháp cho mọi vấn đề/ngành và hãy nhớ rằng dữ liệu có giá trị nhất thường là dữ liệu cần nhiều công sức nhất để tạo ra chứ không phải thứ gì đó dễ dàng thu thập trực tuyến.
Một số điểm cần đề cập khi bắt đầu cuộc trò chuyện ban đầu:
- Khách hàng của họ là ai? Họ có bao nhiêu khách hàng lớn trong ngành của bạn?
- Chi phí (ít nhất là ở mức độ lớn), vì đây có thể là yếu tố phá vỡ giao dịch sớm
- Khả năng du hành thời gian: Họ có khả năng kỹ thuật để ‘du hành ngược thời gian’ và cho bạn biết dữ liệu tồn tại như thế nào trong một ảnh chụp nhanh thời gian không? Điều này rất quan trọng khi chạy một bằng chứng lịch sử về khái niệm (xem thêm ở bên dưới).
- Ràng buộc kỹ thuật: Độ trễ (mẹo: luôn xem xét p99 hoặc các phần trăm cao hơn, không phải mức trung bình), SLA thời gian hoạt động, v.v.
Giả sử nhà cung cấp đã đánh dấu vào các ô trên các điểm chính ở trên, bạn đã sẵn sàng lập kế hoạch cho một bài kiểm tra chứng minh khái niệm. Bạn nên có một mô hình chuẩn với số liệu đánh giá rõ ràng có thể được chuyển thành số liệu kinh doanh. Mô hình của bạn nên có một bộ đào tạo và một bộ kiểm tra ngoài thời gian (có thể là một hoặc nhiều bộ xác thực). Thông thường, bạn sẽ gửi các tính năng có liên quan của bộ đào tạo và bộ kiểm tra, cùng với dấu thời gian của chúng, để nhà cung cấp hợp nhất dữ liệu của họ theo cách dữ liệu tồn tại trong quá khứ (du hành thời gian). Sau đó, bạn có thể đào tạo lại mô hình của mình bằng các tính năng của chúng và đánh giá sự khác biệt trên bộ kiểm tra ngoài thời gian.
Lý tưởng nhất là bạn sẽ không chia sẻ biến mục tiêu của mình với nhà cung cấp. Đôi khi, nhà cung cấp có thể yêu cầu nhận biến mục tiêu của bạn để ‘hiệu chỉnh/điều chỉnh’ mô hình của họ, đào tạo mô hình tùy chỉnh, thực hiện lựa chọn tính năng hoặc bất kỳ loại thao tác nào khác để phù hợp hơn với các tính năng của họ với nhu cầu của bạn. Nếu bạn tiếp tục và chia sẻ biến mục tiêu, hãy đảm bảo rằng nó chỉ dành cho bộ tàu, không bao giờ là tập thử nghiệm.
Nếu bạn có những người thích đọc đoạn văn trên, xin chúc mừng bạn. Khi làm việc với các nhà cung cấp, họ sẽ luôn mong muốn chứng minh giá trị dữ liệu của mình và điều này đặc biệt đúng đối với các nhà cung cấp nhỏ hơn (nơi mà mọi giao dịch đều có thể tạo ra sự khác biệt lớn cho họ).
Một trong những trải nghiệm tồi tệ nhất của tôi khi làm việc với một nhà cung cấp là cách đây vài năm. Một nhà cung cấp dữ liệu mới vừa ký kết Sequence A, tạo ra nhiều sự cường điệu và hứa hẹn cung cấp dữ liệu cực kỳ phù hợp cho một trong các mô hình của chúng tôi. Đó là một sản phẩm mới mà chúng tôi thiếu dữ liệu liên quan và tin rằng đây có thể là một cách hay để bắt đầu mọi thứ. Chúng tôi đã tiếp tục và bắt đầu POC, trong đó mô hình của họ đã cải thiện AUC của chúng tôi từ 0,65 lên 0,85 trên tập huấn luyện của chúng tôi. Trên tập thử nghiệm, mô hình của họ hoàn toàn thất bại – họ đã quá phù hợp một cách lố bịch trên tập huấn luyện. Sau khi thảo luận vấn đề này với họ, họ đã yêu cầu biến mục tiêu được đặt thử nghiệm để phân tích tình huống. Họ giao cho nhà khoa học dữ liệu cấp cao của mình công việc và yêu cầu lặp lại lần thứ 2. Chúng tôi đợi thêm vài tuần nữa để thu thập dữ liệu mới (để dùng làm bộ thử nghiệm mới chưa được xem). Một lần nữa, họ đã cải thiện AUC trên đoàn tàu mới một cách đáng kể, chỉ để đánh bom một lần nữa vào bộ thử nghiệm. Không cần phải nói, chúng tôi đã không tiến về phía trước.
- Đặt ngưỡng ROI cao hơn:
Bắt đầu bằng cách tính ROI – ước tính tỷ suất lợi nhuận ròng gia tăng do mô hình tạo ra so với chi phí. Hầu hết các dự án sẽ muốn có một khoản lợi nhuận tích cực tốt đẹp. Vì có rất nhiều vấn đề có thể làm giảm lợi nhuận của bạn (dữ liệu trôi dạt, triển khai dần dần, giới hạn mức sử dụng với tất cả các phân khúc của bạn, v.v.), hãy đặt ngưỡng cao hơn mức bạn thường làm. Đôi khi, tôi yêu cầu lợi nhuận tài chính gấp 5 lần chi phí làm giàu như một mức tối thiểu để tiếp tục hợp tác với nhà cung cấp, như một biện pháp đệm chống lại sự trôi dạt dữ liệu, khả năng trang bị quá mức và sự không chắc chắn trong ước tính điểm ROI của chúng tôi. - Làm giàu một phần:
Có lẽ ROI trên toàn bộ mô hình là không đủ. Tuy nhiên, một số phân khúc có thể thể hiện mức tăng cao hơn nhiều so với những phân khúc khác. Chia mô hình của bạn thành hai có thể là tốt nhất và chỉ làm phong phú thêm những phân khúc đó. Ví dụ: có lẽ bạn đang chạy mô hình phân loại để xác định các khoản thanh toán gian lận. Có thể dữ liệu mới được thử nghiệm mang lại ROI cao ở Châu Âu nhưng không ở nơi nào khác. - Làm giàu theo giai đoạn: Nếu bạn có mô hình phân loại, bạn có thể xem xét chia quyết định của mình thành hai giai đoạn:
- Giai đoạn 1- Chạy mô hình hiện có
- Chỉ làm giàu các quan sát gần ngưỡng quyết định của bạn (hoặc trên ngưỡng của bạn, tùy thuộc vào trường hợp sử dụng). Mọi quan sát xa hơn ngưỡng được quyết định trong Giai đoạn 1.
- Giai đoạn 2 – Chạy mô hình thứ hai để tinh chỉnh quyết định
Cách tiếp cận này có thể rất hữu ích trong việc giảm chi phí bằng cách làm giàu một tập hợp con nhỏ trong khi vẫn đạt được hầu hết mức tăng, đặc biệt là khi làm việc với dữ liệu mất cân bằng. Nó sẽ không hữu ích nếu mô hình thứ hai tạo ra một sự thay đổi lớn. Ví dụ, nếu các đơn hàng rõ ràng rất an toàn sau đó được xác định là gian lận do dữ liệu được làm giàu, bạn sẽ phải làm giàu hầu hết (nếu không muốn nói là toàn bộ) dữ liệu để đạt được mức tăng đó. Việc làm giàu theo từng giai đoạn cũng có khả năng tăng gấp đôi thời gian trễ của bạn vì bạn sẽ chạy hai mô hình tương tự theo trình tự, vì vậy hãy cân nhắc cẩn thận cách bạn tối ưu hóa sự đánh đổi giữa độ trễ, chi phí và mức tăng hiệu suất của mình.
Làm việc hiệu quả với các nhà cung cấp dữ liệu có thể là một quá trình dài và tẻ nhạt, nhưng hiệu suất nâng cao cho các mô hình của bạn có thể đáng kể. Hy vọng hướng dẫn này sẽ giúp bạn tiết kiệm thời gian và tiền bạc. Chúc bạn lập mô hình vui vẻ!
[ad_2]
Source link