MulaiMulai sekarang secara gratis

Bagian 1: Membuat DataFrame dari berkas CSV

Setiap 4 tahun sekali, para penggemar sepak bola di seluruh dunia merayakan pesta bernama “Piala Dunia FIFA” dan seiring itu, banyak hal tampak berubah di berbagai negara. Dalam latihan 3 bagian ini, Anda akan melakukan exploratory data analysis (EDA) pada himpunan data "FIFA 2018 World Cup Player" menggunakan PySpark SQL yang mencakup operasi DataFrame, kueri SQL, dan visualisasi.

Pada bagian pertama, Anda akan memuat himpunan data Pemain Piala Dunia FIFA 2018 (Fifa2018_dataset.csv), yang berformat CSV, ke dalam DataFrame PySpark dan meninjau datanya menggunakan operasi DataFrame dasar.

Ingat, Anda sudah memiliki SparkSession spark dan variabel file_path di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat sebuah PySpark DataFrame dari file_path (yang merupakan path ke berkas Fifa2018_dataset.csv).
  • Cetak skema DataFrame.
  • Cetak 10 observasi pertama.
  • Ada berapa baris di dalam DataFrame tersebut?

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)

# Check the schema of columns
fifa_df.____()

# Show the first 10 observations
fifa_df.____(____)

# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))
Edit dan Jalankan Kode