Bölüm 1: CSV dosyasından bir DataFrame oluştur
Her 4 yılda bir, dünyanın dört bir yanındaki futbolseverler “Fifa Dünya Kupası” adlı bir şöleni kutlar ve bu dönemde birçok ülkede her şey değişir gibi olur. Bu 3 bölümlük egzersizde, PySpark SQL kullanarak (DataFrame işlemleri, SQL sorguları ve görselleştirme içeren) "FIFA 2018 World Cup Player" veri kümesi üzerinde keşifsel veri analizi (EDA) yapacaksın.
İlk bölümde, CSV formatındaki FIFA 2018 Dünya Kupası Oyuncuları veri kümesini (Fifa2018_dataset.csv) bir PySpark DataFrame’ine yükleyecek ve temel DataFrame işlemleriyle veriyi inceleyeceksin.
Unutma, çalışma alanında zaten bir SparkSession spark ve bir file_path değişkenin mevcut.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
file_path’ten (bu,Fifa2018_dataset.csvdosyasının yoludur) bir PySpark DataFrame oluştur.- DataFrame’in şemasını yazdır.
- İlk 10 gözlemi yazdır.
- DataFrame’de kaç satır var?
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)
# Check the schema of columns
fifa_df.____()
# Show the first 10 observations
fifa_df.____(____)
# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))