[ad_1]
Trong nhiều năm, tôi đã nghe những cụm từ như “dữ liệu là dầu mới” hoặc “dữ liệu là vàng mới”. Tuy nhiên, chúng ta càng xem xét và thảo luận về việc quản lý và sử dụng dữ liệu thì sẽ có một sự so sánh chính xác hơn: Dữ liệu giống như vật liệu phóng xạ.
Giống như chất phóng xạ, dữ liệu có tiềm năng to lớn trong việc tạo ra sự thay đổi và đổi mới tích cực. Tuy nhiên, nó cũng ẩn chứa những rủi ro cố hữu cần phải được quản lý cẩn thận. Giống như việc xử lý sai chất liệu phóng xạ có thể dẫn đến hậu quả thảm khốc, việc xử lý dữ liệu một cách cẩu thả có thể gây ra tổn hại nghiêm trọng.
BẰNG Người xây dựng và người dùng AIchúng ta phải áp dụng tư duy như xử lý chất phóng xạ khi nói đến dữ liệu—thừa nhận tiềm năng của dữ liệu cả về mặt tốt lẫn mặt hại, đồng thời thực hiện các biện pháp chủ động để đảm bảo việc sử dụng dữ liệu một cách có trách nhiệm và có lợi.
Sự phát triển của dữ liệu và AI
Vào những năm 2010, kỷ nguyên của Dữ liệu lớn xuất hiện, được đánh dấu bằng một luồng thông tin chưa từng có. Sự gia tăng dữ liệu này rất cần thiết cho hoạt động của các mô hình quy mô lớn, thúc đẩy nhu cầu về lượng thông tin khổng lồ. Tuy nhiên, khi chúng ta chuyển sang những năm 2020, đã có sự thay đổi đáng chú ý trong việc tập trung vào việc thu thập Phải dữ liệu cho các trường hợp sử dụng cụ thể. Sự thay đổi này nhấn mạnh tầm quan trọng của chất lượng hơn số lượng và tầm quan trọng của việc thu thập dữ liệu có mục tiêu.
Thậm chí gần đây hơn, sự nổi lên của AI tổng quát (GenAI) đã làm thay đổi loại nội dung mà chúng ta coi là dữ liệu. Không còn giới hạn ở bảng tính và tập dữ liệu có cấu trúc, dữ liệu giờ đây bao gồm các bài viết, video, v.v.
Trong khi việc mở rộng này mở rộng phạm vi khả năng cho các sáng kiến AI, nó cũng giới thiệu sự phức tạp và rủi ro mới. Với nội dung là dữ liệu, không chỉ mức độ phức tạp của các dự án AI sẽ tăng lên mà khả năng dữ liệu trở thành trách nhiệm pháp lý đối với các công ty cũng sẽ tăng lên.
Khi dữ liệu là tài sản và trách nhiệm pháp lý
Mặc dù dữ liệu có thể là tài sản có giá trị nhờ mang lại kết quả kinh doanh hữu hình nhưng nó có một số hạn chế nghiêm trọng và có thể trở thành một khoản nợ lớn nếu không được quản lý tốt.
Điều này đặc biệt đúng trong bối cảnh GenAI và các quy định về quyền riêng tư ngày càng hoàn thiện. Để trích Cuốn sách Niềm tin của Dominique Shelton-Leipzig, “việc hiệu chỉnh lại là cần thiết để tránh xung đột giữa đổi mới dữ liệu và quyền riêng tư dữ liệu. Nếu Vi phạm dữ liệu là một quốc gia và thiệt hại 6 nghìn tỷ USD là GDP thì quốc gia có Vi phạm dữ liệu sẽ là quốc gia có GDP lớn thứ ba trên thế giới sau Hoa Kỳ và Trung Quốc.” Đã qua rồi cái thời lưu giữ theo mặc định, đặc biệt nếu dữ liệu đó không tạo ra giá trị.
Ngay cả các tổ chức có khả năng xử lý tốt về quản trị dữ liệu nhìn chung cũng không được chuẩn bị kỹ lưỡng để áp dụng mức độ quản trị dữ liệu tương tự cho khối lượng lớn nguồn dữ liệu nội dung mới hiện có dưới dạng báo cáo, pdf, bản ghi cuộc họp, bản trình bày và các nội dung đa phương tiện khác.
Dưới đây là một số tình huống mà chúng tôi thấy dữ liệu trở thành trách nhiệm pháp lý đối với các công ty:
- Thu thập dữ liệu không có mục đích hoặc sử dụng dữ liệu cho nhiều mục đích. Ví dụ: dữ liệu gốc có thể được thu thập cho mục đích giao dịch (tức là chúng tôi cần ghi lại các ghi chú của bác sĩ trong hồ sơ bệnh nhân để ghi lại các chẩn đoán và kế hoạch điều trị) nhưng việc cố gắng sử dụng cùng một dữ liệu cho một mục đích không được nêu rõ khác không phải lúc nào cũng hiệu quả.
- Lưu trữ số lượng lớn dữ liệu. Dữ liệu tiêu tốn một lượng lớn năng lượng để lưu trữ, bảo mật và xử lý, dẫn đến lượng khí thải carbon tăng lên.
- Dữ liệu gây ra rủi ro bảo mật. Tội phạm mạng bị thu hút bởi các tổ chức có khối lượng dữ liệu lớn. Khi khối lượng dữ liệu bạn lưu trữ tăng lên, bạn có sẵn sàng giảm thiểu rủi ro bổ sung đi kèm với nó không?
- Chất lượng dữ liệu kém dẫn đến các mô hình được đào tạo kém. AI và ML dựa vào dữ liệu sạch để hoạt động bình thường. Nếu không có nó, các công ty có thể phải đối mặt với những sai sót tốn kém.
Could mắn thay, hiện có một số chiến lược để tránh những cạm bẫy dữ liệu này.
Các chiến lược biến dữ liệu thành tài sản
Kiểm tra các lỗ hổng được giới thiệu khi tạo dữ liệu
Dữ liệu tuân theo các nguyên tắc bảo vệ nghiêm ngặt nhất thường có nguồn gốc từ con người—cho dù bạn đang quan sát người dùng là con người, thu thập thông tin về giao dịch, xây dựng tác nhân đàm thoại hay bất kỳ hoạt động ML nào khác lấy con người làm trung tâm. Con người rất phức tạp, đôi khi ngớ ngẩn và không đáng tin cậy, điều đó có nghĩa là dữ liệu phản ánh một số sai lầm này.
BẰNG Dun và Bradstreet nói, “Khi dữ liệu bị bẩn, thường có một vấn đề cơ bản về quy trình kinh doanh cần giải quyết.” Nói cách khác, dữ liệu không chính xác hoặc không đầy đủ thường là kết quả của việc thực hiện thu thập dữ liệu kém, thiếu quản trị dữ liệu và sự không thống nhất giữa mục tiêu CNTT và kinh doanh. Đừng cho rằng những gì bạn chụp được là sự thể hiện chính xác về thế giới.
Ứng dụng trong thế giới thực
Theo kinh nghiệm của tôi khi làm việc với các bệnh viện, không có gì lạ khi thấy các trường hợp bệnh nhân được xem lại và cập nhật dữ liệu mới do áp dụng chẩn đoán sai hoặc công việc xét nghiệm được thực hiện bên ngoài hệ thống y tế cần được thêm vào hồ sơ của họ.
Khi làm việc với dữ liệu chính, điều đó không sao cả. Nhưng có một hiệu ứng tầng của các mô hình được xây dựng trên dữ liệu ban đầu chưa đầy đủ hoặc chưa được chỉnh sửa. Mặc dù dữ liệu có thể không bao giờ hoàn hảo nhưng bạn sẽ muốn đảm bảo rằng các quy trình vệ sinh dữ liệu không chỉ nhắm mục tiêu dữ liệu mà còn cả các mô hình đăng ký chúng.
Cân nhắc rủi ro
Mỗi khi bạn chọn thu thập dữ liệu mới, hãy cân nhắc rủi ro của việc (1) thu thập dữ liệu và (2) giữ lại dữ liệu. Nó sẽ chỉ làm tăng trách nhiệm pháp lý đối với công ty của bạn hay nó có liên quan đến việc sử dụng được phép và do đó đáng được lưu trữ (đọc: bảo vệ)?
Sự hoàn hảo không tồn tại
Đừng trở thành công ty phấn đấu để có được dữ liệu hoàn hảo. Thường, xây dựng mô hình thông qua tạo mẫu nhanh sẽ mang lại bản chất của dữ liệu bị thiếu và giúp bạn có một khởi đầu thuận lợi trong việc nắm bắt Phải dữ liệu đúng mục đích.
Nói chung, theo mặc định, chúng tôi phải ngừng coi dữ liệu là có giá trị. Cassie Kozyrkov viết nó hay nhất Trên Linkedin: “Tôi ước gì tất cả chúng ta ngừng phát âm dữ liệu bằng chữ ‘D’ viết hoa. Dữ liệu không phải là phép thuật — chỉ vì bạn có một bảng tính chứa đầy các con số không đảm bảo rằng bạn sẽ có thể thu được bất kỳ điều gì hữu ích từ nó.”
Dữ liệu tốt xảy ra như một chức năng của một quá trình. Khi khối lượng dữ liệu cần thiết để tận dụng sức mạnh của GenAI tăng lên, việc đầu tư vào chất lượng dữ liệu chưa bao giờ quan trọng hơn thế. Dữ liệu chỉ có giá trị thông qua quá trình và sự đầu tư có tâm. Nó có thể không phải là vàng đang chờ được tìm thấy mà thay vào đó là một viên kim cương đang được xử lý.
Giới thiệu về tác giả
Cal Al-Dhubaib là nhà khoa học dữ liệu và chiến lược gia AI được công nhận trên toàn cầu về trí tuệ nhân tạo đáng tin cậy, đồng thời là Trưởng phòng Khoa học dữ liệu và AI tại Hơn nữamột công ty dữ liệu, đám mây và AI tập trung vào việc giúp hiểu rõ dữ liệu thô.
Đăng ký miễn phí InsideBIGDATA bản tin.
Tham gia với chúng tôi trên Twitter: https://twitter.com/InsideBigData1
Tham gia với chúng tôi trên LinkedIn: https://www.linkedin.com/company/insidebigdata/
Tham gia cùng chúng tôi trên Fb: https://www.facebook.com/insideBIGDATANOW
[ad_2]
Source link