1. Nauka
  2. /
  3. Kursy
  4. /
  5. PySparkで学ぶBig Data入門

Connected

ćwiczenie

パート1:CSVファイルからDataFrameを作成する

4年に一度、世界中のサッカーファンが“Fifa World Cup”を祝います。開催国だけでなく多くの国で、あらゆるものが特別な雰囲気に包まれます。この3部構成の演習では、PySpark SQLを使って「FIFA 2018 World Cup Player」データセットの探索的データ分析(EDA)を行います。ここではDataFrame操作、SQLクエリ、可視化を扱います。

まずは、CSV形式のFIFA 2018 World Cup Playersデータセット(Fifa2018_dataset.csv)をPySparkのDataFrameに読み込み、基本的なDataFrame操作でデータを確認します。

作業スペースには、すでにSparkSessionの spark と、ファイルへのパスを表す変数 file_path が用意されています。

Instrukcje

100 XP
  • file_path(Fifa2018_dataset.csv へのパス)からPySparkのDataFrameを作成します。
  • DataFrameのスキーマを表示します。
  • 先頭10件のレコードを表示します。
  • DataFrameには何行ありますか?