Phần 3: Trực quan hóa dữ liệu

Trực quan hóa dữ liệu rất quan trọng cho phân tích khám phá dữ liệu (EDA). So với RDD, PySpark DataFrame phù hợp hơn cho trực quan hóa nhờ cấu trúc và schema sẵn có.

Trong phần thứ ba này, bạn sẽ tạo biểu đồ histogram cho độ tuổi của tất cả các cầu thủ người Đức từ DataFrame mà bạn đã tạo ở bài trước. Để làm điều này, trước hết bạn sẽ chuyển PySpark DataFrame sang Pandas DataFrame và dùng hàm plot() của matplotlib để tạo biểu đồ mật độ (density plot) cho độ tuổi của tất cả các cầu thủ người Đức.

Hãy nhớ rằng bạn đã có sẵn SparkSession spark, bảng tạm fifa_df_table và DataFrame fifa_df_germany_age trong không gian làm việc.

Chuyển fifa_df_germany_age thành Pandas DataFrame fifa_df_germany_age_pandas.
Tạo biểu đồ mật độ (density plot) cho cột 'Age' từ Pandas DataFrame fifa_df_germany_age_pandas.

Bài tập

Phần 3: Trực quan hóa dữ liệu

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập