Bagian 1: Membuat DataFrame dari berkas CSV
Setiap 4 tahun sekali, para penggemar sepak bola di seluruh dunia merayakan pesta bernama “Piala Dunia FIFA” dan seiring itu, banyak hal tampak berubah di berbagai negara. Dalam latihan 3 bagian ini, Anda akan melakukan exploratory data analysis (EDA) pada himpunan data "FIFA 2018 World Cup Player" menggunakan PySpark SQL yang mencakup operasi DataFrame, kueri SQL, dan visualisasi.
Pada bagian pertama, Anda akan memuat himpunan data Pemain Piala Dunia FIFA 2018 (Fifa2018_dataset.csv), yang berformat CSV, ke dalam DataFrame PySpark dan meninjau datanya menggunakan operasi DataFrame dasar.
Ingat, Anda sudah memiliki SparkSession spark dan variabel file_path di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat sebuah PySpark DataFrame dari
file_path(yang merupakan path ke berkasFifa2018_dataset.csv). - Cetak skema DataFrame.
- Cetak 10 observasi pertama.
- Ada berapa baris di dalam DataFrame tersebut?
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)
# Check the schema of columns
fifa_df.____()
# Show the first 10 observations
fifa_df.____(____)
# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))