[ad_1]
Các hương vị dữ liệu mới đòi hỏi những cách lưu trữ mới. Tìm hiểu tất cả những gì bạn cần biết về định dạng tệp Parquet
Với lượng dữ liệu tăng theo cấp số nhân trong vài năm trở lại đây, một trong những thách thức lớn nhất là tìm ra cách tối ưu nhất để lưu trữ nhiều loại dữ liệu khác nhau. Không giống như trong quá khứ (không quá xa), khi cơ sở dữ liệu quan hệ được coi là cách duy nhất, các tổ chức hiện muốn thực hiện phân tích trên dữ liệu thô — hãy nghĩ đến phân tích tình cảm trên mạng xã hội, tệp âm thanh/video, v.v. — thường không thể lưu trữ theo cách truyền thống (quan hệ), hoặc lưu trữ chúng theo cách truyền thống sẽ đòi hỏi nhiều nỗ lực và thời gian, làm tăng tổng thời gian phân tích.
Một thách thức khác là bằng cách nào đó phải tuân theo cách tiếp cận truyền thống để lưu trữ dữ liệu theo cách có cấu trúc, nhưng không cần thiết phải thiết kế khối lượng công việc ETL phức tạp và tốn thời gian để di chuyển dữ liệu này vào kho dữ liệu doanh nghiệp. Ngoài ra, nếu một nửa số chuyên gia dữ liệu trong tổ chức của bạn thành thạo, chẳng hạn như Python (nhà khoa học dữ liệu, kỹ sư dữ liệu), và một nửa còn lại (kỹ sư dữ liệu, nhà phân tích dữ liệu) thành thạo SQL thì sao? Bạn có khăng khăng rằng “người theo Python” phải học SQL không? Hay ngược lại?
[ad_2]
Source link