[ad_1]
Kho dữ liệu đang phát triển và việc quản lý chất lượng dữ liệu cũng cần phát triển cùng với nó. Dưới đây là ba cách tiếp cận phổ biến và vị trí mà lĩnh vực này đang hướng tới trong kỷ nguyên AI.
Chúng có phải là những từ khác nhau cho cùng một thứ không? Cách tiếp cận độc đáo cho cùng một vấn đề? Một cái gì đó hoàn toàn khác?
Và quan trọng hơn – bạn có thực sự cần cả ba?
Giống như mọi thứ trong kỹ thuật dữ liệu, quản lý chất lượng dữ liệu đang phát triển với tốc độ cực nhanh. Sự gia tăng nhanh chóng của dữ liệu và AI trong doanh nghiệp đã khiến chất lượng dữ liệu trở thành rủi ro không bao giờ xảy ra đối với các doanh nghiệp hiện đại — và là vấn đề cần giải quyết đối với các nhóm dữ liệu. Với rất nhiều thuật ngữ chồng chéo, không phải lúc nào cũng rõ ràng làm thế nào tất cả các thuật ngữ này khớp với nhau – hoặc nếu như nó phù hợp với nhau.
Nhưng trái ngược với những gì một số người có thể tranh luận, giám sát chất lượng dữ liệu, kiểm tra dữ liệu và khả năng quan sát dữ liệu không phải là các phương pháp tiếp cận mâu thuẫn hoặc thậm chí thay thế để quản lý chất lượng dữ liệu – chúng là các yếu tố bổ sung của một giải pháp duy nhất.
Trong phần này, tôi sẽ đi sâu vào chi tiết cụ thể của ba phương pháp này, chúng hoạt động tốt nhất ở đâu, thiếu sót ở đâu và cách bạn có thể tối ưu hóa phương pháp thực hành chất lượng dữ liệu của mình để thúc đẩy niềm tin dữ liệu vào năm 2024.
Trước khi có thể hiểu giải pháp hiện tại, chúng ta cần hiểu vấn đề — và nó đã thay đổi như thế nào theo thời gian. Hãy xem xét sự tương tự sau đây.
Hãy tưởng tượng bạn là một kỹ sư chịu trách nhiệm cung cấp nước cho địa phương. Khi bạn nhận việc, thành phố chỉ có dân số 1.000 người. Nhưng sau khi vàng được phát hiện dưới thị trấn, cộng đồng nhỏ bé gồm 1.000 người của bạn sẽ biến thành một thành phố chân chính với 1.000.000 người.
Điều đó có thể thay đổi cách bạn thực hiện công việc của mình như thế nào?
Đối với những người mới bắt đầu, trong một môi trường nhỏ, các điểm hỏng hóc tương đối nhỏ – nếu đường ống bị hỏng, nguyên nhân cốt lõi có thể được thu hẹp thành một trong một số thủ phạm dự kiến (đường ống bị đóng băng, ai đó đào vào đường nước, thông thường) và được giải quyết. nhanh chóng với nguồn lực của một hoặc hai nhân viên.
Với hệ thống đường ống ngoằn ngoèo của 1 triệu cư dân mới cần thiết kế và bảo trì, tốc độ điên cuồng cần có để đáp ứng nhu cầu cũng như khả năng (và khả năng hiển thị) hạn chế của nhóm của bạn, bạn không còn có khả năng xác định và giải quyết mọi vấn đề như bạn mong đợi nữa bật lên – đừng để ý đến những cái bạn không để ý.
Môi trường dữ liệu hiện đại cũng vậy. Các nhóm dữ liệu đã đạt được thành công và các bên liên quan muốn tham gia vào hành động này. Môi trường dữ liệu của bạn càng phát triển thì chất lượng dữ liệu càng trở nên khó khăn hơn – và các phương pháp chất lượng dữ liệu truyền thống sẽ kém hiệu quả hơn.
Họ không hẳn đã sai. Nhưng chúng cũng không đủ.
Nói rõ hơn, mỗi phương pháp này đều cố gắng giải quyết chất lượng dữ liệu. Vì vậy, nếu đó là vấn đề bạn cần phải xây dựng hoặc mua vì, về mặt lý thuyết, bất kỳ một trong số này sẽ đánh dấu vào ô đó. Tuy nhiên, chỉ vì đây đều là giải pháp chất lượng dữ liệu không có nghĩa là chúng sẽ thực sự giải quyết được vấn đề về chất lượng dữ liệu của bạn.
Khi nào và làm thế nào những giải pháp này nên được sử dụng phức tạp hơn thế một chút.
Nói một cách đơn giản nhất, bạn có thể coi chất lượng dữ liệu là một vấn đề; thử nghiệm và giám sát là phương pháp để xác định các vấn đề về chất lượng; và khả năng quan sát dữ liệu như một cách tiếp cận khác biệt và toàn diện, kết hợp và mở rộng cả hai phương pháp với các tính năng phân giải và hiển thị sâu hơn để giải quyết chất lượng dữ liệu trên quy mô lớn.
Hay nói một cách đơn giản hơn, việc theo dõi và kiểm tra xác định các vấn đề – khả năng quan sát dữ liệu xác định các vấn đề và khiến chúng có thể xử lý được.
Dưới đây là minh họa nhanh có thể giúp hình dung vị trí phù hợp của khả năng quan sát dữ liệu trong đường cong trưởng thành chất lượng dữ liệu.
Bây giờ, hãy đi sâu vào từng phương pháp chi tiết hơn một chút.
Cách đầu tiên trong hai cách tiếp cận truyền thống về chất lượng dữ liệu là kiểm tra dữ liệu. Kiểm tra chất lượng dữ liệu (hoặc đơn giản kiểm tra dữ liệu) là một phương pháp phát hiện sử dụng các ràng buộc hoặc quy tắc do người dùng xác định để xác định các vấn đề cụ thể đã biết trong tập dữ liệu nhằm xác thực tính toàn vẹn dữ liệu và đảm bảo cụ thể tiêu chuẩn chất lượng dữ liệu.
Để tạo thử nghiệm dữ liệu, chủ sở hữu chất lượng dữ liệu sẽ viết một loạt tập lệnh thủ công (thường bằng SQL hoặc tận dụng giải pháp mô-đun như dbt) để phát hiện các vấn đề cụ thể như tỷ lệ null quá mức hoặc mẫu chuỗi không chính xác.
Khi nhu cầu dữ liệu của bạn – và do đó, nhu cầu về chất lượng dữ liệu của bạn – rất nhỏ, nhiều nhóm sẽ có thể đạt được những gì họ cần từ việc kiểm tra dữ liệu đơn giản. Tuy nhiên, khi dữ liệu của bạn tăng về kích thước và độ phức tạp, bạn sẽ nhanh chóng thấy mình phải đối mặt với các vấn đề mới về chất lượng dữ liệu — và cần các khả năng mới để giải quyết chúng. Và thời điểm đó sẽ đến sớm hơn nhiều.
Mặc dù kiểm tra dữ liệu sẽ tiếp tục là một thành phần cần thiết của khung chất lượng dữ liệu nhưng nó vẫn còn thiếu một số lĩnh vực chính:
- Yêu cầu kiến thức dữ liệu sâu sắc — kiểm tra dữ liệu yêu cầu các kỹ sư dữ liệu phải có 1) đủ kiến thức chuyên môn về lĩnh vực để xác định chất lượng và 2) đủ kiến thức về cách dữ liệu có thể bị hỏng để thiết lập các thử nghiệm nhằm xác thực nó.
- Không có bảo hiểm cho các vấn đề chưa biết — kiểm tra dữ liệu chỉ có thể cho bạn biết về những vấn đề bạn mong muốn tìm thấy — chứ không phải những sự cố mà bạn không tìm thấy. Nếu bài kiểm tra không được viết để giải quyết một vấn đề cụ thể thì bài kiểm tra sẽ không tìm thấy nó.
- Không thể mở rộng — viết 10 bài kiểm tra cho 30 bảng hơi khác một chút so với viết 100 bài kiểm tra cho 3.000 bảng.
- Tầm nhìn hạn chế — Kiểm tra dữ liệu chỉ kiểm tra chính dữ liệu đó nên không thể cho bạn biết liệu sự cố có thực sự là do dữ liệu, hệ thống hay mã đang cấp nguồn cho dữ liệu đó hay không.
- Không có độ phân giải — ngay cả khi việc kiểm tra dữ liệu phát hiện ra sự cố, nó sẽ không giúp bạn tiến gần hơn đến việc giải quyết vấn đề đó; hoặc hiểu nó tác động đến cái gì và ai.
Ở bất kỳ cấp độ quy mô nào, thử nghiệm đều trở thành dữ liệu tương đương với việc hét lên “cháy!” trên một con phố đông đúc rồi bỏ đi mà không nói cho ai biết bạn đã nhìn thấy nó ở đâu.
Một cách tiếp cận truyền thống khác – nếu phức tạp hơn một chút – về chất lượng dữ liệu, giám sát chất lượng dữ liệu là một giải pháp liên tục, liên tục theo dõi và xác định các điểm bất thường chưa xác định ẩn trong dữ liệu của bạn thông qua cài đặt ngưỡng thủ công hoặc học máy.
Ví dụ: dữ liệu của bạn có đến đúng giờ không? Bạn có nhận được số hàng bạn mong đợi không?
Lợi ích chính của việc giám sát chất lượng dữ liệu là nó cung cấp phạm vi bao quát rộng hơn cho những ẩn số chưa biết và giúp các kỹ sư dữ liệu không phải viết hoặc sao chép các bài kiểm tra cho từng tập dữ liệu để xác định các vấn đề phổ biến theo cách thủ công.
Theo một nghĩa nào đó, bạn có thể coi việc giám sát chất lượng dữ liệu là toàn diện hơn so với thử nghiệm vì nó so sánh các số liệu theo thời gian và cho phép các nhóm khám phá các mẫu mà họ không thấy từ một thử nghiệm đơn vị dữ liệu cho một vấn đề đã biết.
Thật không might, việc giám sát chất lượng dữ liệu cũng còn thiếu sót ở một số lĩnh vực chính.
- Tăng chi phí tính toán – việc giám sát chất lượng dữ liệu rất tốn kém. Giống như kiểm tra dữ liệu, giám sát chất lượng dữ liệu truy vấn dữ liệu trực tiếp – nhưng vì nó nhằm xác định những ẩn số chưa biết nên nó cần được áp dụng rộng rãi để có hiệu quả. Điều đó có nghĩa là chi phí tính toán lớn.
- Thời gian tạo ra giá trị chậm — ngưỡng giám sát có thể được tự động hóa bằng công nghệ học máy, nhưng trước tiên, bạn vẫn cần tự mình xây dựng từng màn hình. Điều đó có nghĩa là bạn sẽ thực hiện nhiều thao tác mã hóa cho từng vấn đề ở giao diện người dùng và sau đó điều chỉnh quy mô các màn hình đó theo cách thủ công khi môi trường dữ liệu của bạn phát triển theo thời gian.
- Tầm nhìn hạn chế — dữ liệu có thể bị hỏng vì đủ loại lý do. Cũng giống như kiểm tra, việc giám sát chỉ xem xét dữ liệu nên nó chỉ có thể cho bạn biết rằng có điều bất thường đã xảy ra chứ không phải lý do tại sao nó lại xảy ra.
- Không có độ phân giải — mặc dù việc giám sát chắc chắn có thể phát hiện nhiều điểm bất thường hơn so với kiểm tra, nhưng nó vẫn không thể cho bạn biết điều gì đã bị ảnh hưởng, ai cần biết về điều đó hoặc liệu điều đó có quan trọng ngay từ đầu hay không.
Hơn nữa, vì việc giám sát chất lượng dữ liệu chỉ hiệu quả hơn khi giao hàng cảnh báo — không quản lý chúng — nhóm dữ liệu của bạn có nhiều khả năng gặp phải cảnh giác mệt mỏi ở quy mô lớn hơn là thực sự cải thiện độ tin cậy của dữ liệu theo thời gian.
Điều đó để lại khả năng quan sát dữ liệu. Không giống như các phương pháp được đề cập ở trên, khả năng quan sát dữ liệu đề cập đến toàn diện giải pháp trung lập với nhà cung cấp được thiết kế để cung cấp phạm vi bảo hiểm chất lượng dữ liệu hoàn chỉnh, vừa có thể mở rộng vừa có thể thực hiện được.
Lấy cảm hứng từ các thực tiễn tốt nhất về công nghệ phần mềm, khả năng quan sát dữ liệu là một phương pháp tiếp cận toàn diện hỗ trợ AI để quản lý chất lượng dữ liệu được thiết kế để trả lời các vấn đề về cái gì, ai, tại sao và như thế nào đối với các vấn đề về chất lượng dữ liệu trong một nền tảng duy nhất. Nó bù đắp những hạn chế của các phương pháp chất lượng dữ liệu truyền thống bằng cách tận dụng cả kiểm tra và giám sát chất lượng dữ liệu hoàn toàn tự động vào một hệ thống duy nhất, sau đó mở rộng phạm vi đó sang các cấp độ dữ liệu, hệ thống và mã trong môi trường dữ liệu của bạn.
Kết hợp với các tính năng giải quyết và quản lý sự cố quan trọng (như giao thức cảnh báo và dòng cấp cột tự động), khả năng quan sát dữ liệu giúp nhóm dữ liệu phát hiện, phân loại và giải quyết các vấn đề về chất lượng dữ liệu từ quá trình nhập đến tiêu thụ.
Hơn nữa, khả năng quan sát dữ liệu được thiết kế để cung cấp giá trị đa chức năng bằng cách thúc đẩy sự cộng tác giữa các nhóm, bao gồm kỹ sư dữ liệu, nhà phân tích, chủ sở hữu dữ liệu và các bên liên quan.
Khả năng quan sát dữ liệu giải quyết những thiếu sót của thực hành DQ truyền thống theo 4 cách chính:
- Xử lý và giải quyết sự cố mạnh mẽ — quan trọng nhất, khả năng quan sát dữ liệu cung cấp các nguồn lực để giải quyết sự cố nhanh hơn. Ngoài việc gắn thẻ và cảnh báo, khả năng quan sát dữ liệu còn đẩy nhanh quy trình tìm nguyên nhân gốc rễ bằng dòng cấp cột tự động cho phép các nhóm xem nhanh những gì bị ảnh hưởng, ai cần biết và nơi cần đến để khắc phục.
- Khả năng hiển thị hoàn chỉnh — khả năng quan sát dữ liệu mở rộng phạm vi bao phủ ra ngoài các nguồn dữ liệu vào cơ sở hạ tầng, quy trình và hệ thống sau nhập trong đó dữ liệu của bạn di chuyển và chuyển đổi để giải quyết các vấn đề về dữ liệu cho các nhóm miền trong toàn công ty
- Thời gian tạo giá trị nhanh hơn — khả năng quan sát dữ liệu tự động hóa hoàn toàn quá trình thiết lập với các màn hình dựa trên ML cung cấp phạm vi phủ sóng tức thì ngay lập tức mà không cần mã hóa hoặc cài đặt ngưỡng, do đó bạn có thể nhận được phạm vi phủ sóng nhanh hơn và tự động mở rộng quy mô theo môi trường của bạn theo thời gian ( cùng với những hiểu biết tùy chỉnh và các công cụ mã hóa được đơn giản hóa để giúp việc kiểm tra do người dùng xác định trở nên dễ dàng hơn).
- Theo dõi tình trạng sản phẩm dữ liệu — khả năng quan sát dữ liệu cũng mở rộng việc giám sát và theo dõi tình trạng ngoài định dạng bảng truyền thống để theo dõi, đo lường và trực quan hóa tình trạng của các sản phẩm dữ liệu cụ thể hoặc tài sản quan trọng.
Tất cả chúng ta đều đã nghe cụm từ “rác vào, rác ra”. Chà, câu châm ngôn đó đúng gấp đôi đối với các ứng dụng AI. Tuy nhiên, AI không chỉ cần quản lý chất lượng dữ liệu tốt hơn để cung cấp thông tin đầu ra; việc quản lý chất lượng dữ liệu của bạn cũng phải được hỗ trợ bởi chính AI để tối đa hóa khả năng mở rộng cho việc phát triển các thuộc tính dữ liệu.
Khả năng quan sát dữ liệu là giải pháp quản lý chất lượng dữ liệu trên thực tế – và được cho là duy nhất – cho phép các nhóm dữ liệu doanh nghiệp cung cấp dữ liệu đáng tin cậy cho AI một cách hiệu quả. Và một phần để nó đạt được thành tích đó là nhờ giải pháp hỗ trợ AI.
Bằng cách tận dụng AI để tạo màn hình, phát hiện bất thường và phân tích nguyên nhân gốc rễ, khả năng quan sát dữ liệu cho phép quản lý chất lượng dữ liệu có quy mô siêu mở rộng để truyền dữ liệu theo thời gian thực, kiến trúc RAG và các giải pháp khác. Các trường hợp sử dụng AI.
Khi kho dữ liệu tiếp tục phát triển cho doanh nghiệp và hơn thế nữa, các phương pháp chất lượng dữ liệu truyền thống không thể giám sát tất cả các cách mà nền tảng dữ liệu của bạn có thể bị hỏng — hoặc giúp bạn giải quyết vấn đề khi chúng xảy ra.
Đặc biệt trong thời đại AI, chất lượng dữ liệu không chỉ đơn thuần là rủi ro kinh doanh mà còn là rủi ro mang tính tồn tại. Nếu bạn không thể tin tưởng vào toàn bộ dữ liệu được đưa vào mô hình của mình thì bạn cũng không thể tin tưởng vào kết quả đầu ra của AI. Ở quy mô chóng mặt của AI, các phương pháp chất lượng dữ liệu truyền thống đơn giản là không đủ để bảo vệ giá trị hoặc độ tin cậy của những tài sản dữ liệu đó.
Để có hiệu quả, cả thử nghiệm và giám sát cần phải được tích hợp vào một giải pháp không phụ thuộc vào nền tảng duy nhất có thể giám sát khách quan toàn bộ môi trường dữ liệu — dữ liệu, hệ thống và mã — từ đầu đến cuối, sau đó trang bị cho các nhóm dữ liệu các tài nguyên để phân loại và giải quyết vấn đề nhanh hơn.
Nói cách khác, để quản lý chất lượng dữ liệu trở nên hữu ích, các nhóm dữ liệu hiện đại cần có khả năng quan sát dữ liệu.
Bước đầu tiên. Phát hiện. Bước thứ hai. Giải quyết. Bước thứ ba. Thịnh vượng.
[ad_2]
Source link