[ad_1]
Trong cuộc thảo luận này, tôi muốn khám phá các xu hướng đang phát triển trong việc sắp xếp dữ liệu và mô hình hóa dữ liệu, nhấn mạnh những tiến bộ trong các công cụ và lợi ích cốt lõi của chúng đối với các kỹ sư dữ liệu. Trong khi Airflow là công cụ thống trị kể từ năm 2014, bối cảnh kỹ thuật dữ liệu đã thay đổi đáng kể, hiện đang giải quyết các trường hợp sử dụng và yêu cầu phức tạp hơn, bao gồm hỗ trợ nhiều ngôn ngữ lập trình, tích hợp và khả năng mở rộng được cải thiện. Tôi sẽ xem xét các công cụ hiện đại và có lẽ là không theo quy ước giúp hợp lý hóa các quy trình kỹ thuật dữ liệu của tôi, cho phép tôi dễ dàng tạo, quản lý và sắp xếp các đường ống dữ liệu mạnh mẽ, bền bỉ và có thể mở rộng.
Trong thập kỷ qua, chúng ta đã chứng kiến ”sự bùng nổ kỷ Cambri” của nhiều khuôn khổ ETL khác nhau để trích xuất, chuyển đổi và sắp xếp dữ liệu. Không có gì ngạc nhiên khi nhiều trong số chúng là mã nguồn mở và dựa trên Python.
Những loại phổ biến nhất:
- Luồng không khí, 2014
- Luigi, 2014
- Trưởng khoa, 2018
- Thời gian, 2019
- Flyte, 2020
- Ngày 2020
- Pháp sư, 2021
- Dàn nhạc, 2023
[ad_2]
Source link