Bölüm 1: CSV dosyasından bir DataFrame oluştur

Her 4 yılda bir, dünyanın dört bir yanındaki futbolseverler “Fifa Dünya Kupası” adlı bir şöleni kutlar ve bu dönemde birçok ülkede her şey değişir gibi olur. Bu 3 bölümlük egzersizde, PySpark SQL kullanarak (DataFrame işlemleri, SQL sorguları ve görselleştirme içeren) "FIFA 2018 World Cup Player" veri kümesi üzerinde keşifsel veri analizi (EDA) yapacaksın.

İlk bölümde, CSV formatındaki FIFA 2018 Dünya Kupası Oyuncuları veri kümesini (Fifa2018_dataset.csv) bir PySpark DataFrame’ine yükleyecek ve temel DataFrame işlemleriyle veriyi inceleyeceksin.

Unutma, çalışma alanında zaten bir SparkSession spark ve bir file_path değişkenin mevcut.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Big Data Temelleri

Kursa Göz Atın

Egzersiz talimatları

file_path’ten (bu, Fifa2018_dataset.csv dosyasının yoludur) bir PySpark DataFrame oluştur.
DataFrame’in şemasını yazdır.
İlk 10 gözlemi yazdır.
DataFrame’de kaç satır var?

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)

# Check the schema of columns
fifa_df.____()

# Show the first 10 observations
fifa_df.____(____)

# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))

Kodu Düzenle ve Çalıştır