1. Learn
  2. /
  3. Kurser
  4. /
  5. PySparkで学ぶBig Data入門

Connected

övning

パート3:データの可視化

データの可視化は探索的データ分析(EDA)にとって重要です。PySpark の DataFrame は、構造とスキーマを持っているため、RDD と比べて可視化に適しています。

このパートでは、前の演習で作成した DataFrame を使って、ドイツ代表の全選手の年齢のヒストグラムを作成します。そのために、まず PySpark の DataFrame を Pandas DataFrame に変換し、matplotlib の plot() 関数を使って、ドイツ代表の全選手の年齢の密度プロットを作成します。

なお、作業スペースにはすでに SparkSession spark、一時テーブル fifa_df_table、そして DataFrame fifa_df_germany_age が用意されています。

Instruktioner

100 XP
  • fifa_df_germany_age を Pandas DataFrame fifa_df_germany_age_pandas に変換します。
  • fifa_df_germany_age_pandas の 'Age' 列の密度プロットを作成します。