Bölüm 1: CSV dosyasından bir DataFrame oluştur
Her 4 yılda bir, dünyanın dört bir yanındaki futbolseverler “Fifa Dünya Kupası” adlı bir şöleni kutlar ve bu dönemde birçok ülkede her şey değişir gibi olur. Bu 3 bölümlük egzersizde, PySpark SQL kullanarak (DataFrame işlemleri, SQL sorguları ve görselleştirme içeren) "FIFA 2018 World Cup Player" veri kümesi üzerinde keşifsel veri analizi (EDA) yapacaksın.
İlk bölümde, CSV formatındaki FIFA 2018 Dünya Kupası Oyuncuları veri kümesini (Fifa2018_dataset.csv) bir PySpark DataFrame’ine yükleyecek ve temel DataFrame işlemleriyle veriyi inceleyeceksin.
Unutma, çalışma alanında zaten bir SparkSession spark ve bir file_path değişkenin mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
file_path’ten (bu,Fifa2018_dataset.csvdosyasının yoludur) bir PySpark DataFrame oluştur.- DataFrame’in şemasını yazdır.
- İlk 10 gözlemi yazdır.
- DataFrame’de kaç satır var?
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)
# Check the schema of columns
fifa_df.____()
# Show the first 10 observations
fifa_df.____(____)
# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))