1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Trực quan hóa PySpark DataFrame

Biểu diễn trực quan (trực quan hóa) dữ liệu là yếu tố then chốt để hiểu và diễn giải dữ liệu. Trong bài tập trực quan hóa đơn giản này, trước tiên bạn sẽ in tên các cột của DataFrame names_df mà bạn đã tạo trước đó, sau đó chuyển names_df sang DataFrame Pandas, và cuối cùng vẽ nội dung dưới dạng biểu đồ cột ngang với tên người ở trục x và tuổi ở trục y.

Lưu ý, bạn đã có sẵn SparkSession spark và DataFrame names_df trong không gian làm việc của mình.

Hướng dẫn

100 XP
  • In tên các cột trong DataFrame names_df.
  • Chuyển DataFrame names_df thành DataFrame Pandas df_pandas.
  • Dùng phương thức plot() của matplotlib để tạo biểu đồ cột ngang với 'Name' trên trục x và 'Age' trên trục y.