[ad_1]
Khi sử dụng PySpark, đặc biệt là nếu bạn có nền tảng về SQL, một trong những điều đầu tiên bạn muốn làm là đưa dữ liệu bạn muốn xử lý vào DataFrame. Khi dữ liệu đã ở trong DataFrame, bạn có thể dễ dàng tạo chế độ xem tạm thời (hoặc bảng cố định) từ DataFrame. Ở giai đoạn đó, tất cả các hoạt động phong phú của PySpark SQL sẽ khả dụng để bạn sử dụng để khám phá và xử lý dữ liệu sâu hơn.
Vì nhiều kỹ năng SQL chuẩn có thể dễ dàng chuyển sang PySpark SQL, nên điều quan trọng là phải chuẩn bị dữ liệu của bạn để sử dụng trực tiếp với PySpark SQL càng sớm càng tốt trong quy trình xử lý của bạn. Việc này nên là ưu tiên hàng đầu để xử lý và phân tích dữ liệu hiệu quả.
Bạn không có tất nhiên là để làm điều này, vì bất cứ điều gì bạn có thể làm với PySpark SQL trên các chế độ xem hoặc bảng cũng có thể được thực hiện trực tiếp trên DataFrames bằng cách sử dụng API. Nhưng với tư cách là người thoải mái hơn nhiều khi sử dụng SQL so với API DataFrame, quy trình goto của tôi khi sử dụng Spark luôn là,
dữ liệu đầu vào -> DataFrame-> chế độ xem tạm thời-> xử lý SQL
Để giúp bạn thực hiện quy trình này, bài viết này sẽ thảo luận về phần đầu tiên của quy trình này, tức là đưa dữ liệu của bạn vào DataFrames, bằng cách giới thiệu bốn trong số…
[ad_2]
Source link