1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Phần 3: Trực quan hóa dữ liệu

Trực quan hóa dữ liệu rất quan trọng cho phân tích khám phá dữ liệu (EDA). So với RDD, PySpark DataFrame phù hợp hơn cho trực quan hóa nhờ cấu trúc và schema sẵn có.

Trong phần thứ ba này, bạn sẽ tạo biểu đồ histogram cho độ tuổi của tất cả các cầu thủ người Đức từ DataFrame mà bạn đã tạo ở bài trước. Để làm điều này, trước hết bạn sẽ chuyển PySpark DataFrame sang Pandas DataFrame và dùng hàm plot() của matplotlib để tạo biểu đồ mật độ (density plot) cho độ tuổi của tất cả các cầu thủ người Đức.

Hãy nhớ rằng bạn đã có sẵn SparkSession spark, bảng tạm fifa_df_table và DataFrame fifa_df_germany_age trong không gian làm việc.

Hướng dẫn

100 XP
  • Chuyển fifa_df_germany_age thành Pandas DataFrame fifa_df_germany_age_pandas.
  • Tạo biểu đồ mật độ (density plot) cho cột 'Age' từ Pandas DataFrame fifa_df_germany_age_pandas.