Deel 2: SQL-queries op DataFrame
De DataFrame fifa_df die we hebben gemaakt, bevat extra informatie over datatypes en kolomnamen. Dankzij deze extra informatie kan PySpark SQL SQL-queries uitvoeren op een DataFrame. SQL-queries zijn beknopt en eenvoudiger uit te voeren dan DataFrame-bewerkingen. Maar om SQL-queries op een DataFrame toe te passen, moet je eerst een tijdelijke view van de DataFrame als tabel maken en vervolgens SQL-queries uitvoeren op de gemaakte tabel (SQL-queries programmatiche uitvoeren).
In dit tweede deel maak je een tijdelijke tabel van de DataFrame fifa_df en voer je SQL-queries uit om de kolom 'Age' van spelers uit Germany op te halen.
Je hebt al een SparkContext spark en fifa_df beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak de tijdelijke tabel
fifa_df_tablevan de DataFramefifa_df. - Stel een "query" op om de kolom "Age" van spelers uit Germany in
fifa_df_tableop te halen. - Pas de SQL-"query" toe en maak een nieuwe DataFrame
fifa_df_germany_age. - Bereken de basisstatistieken van de gemaakte DataFrame.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')
# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''
# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)
# Generate basic statistics
fifa_df_germany_age.____().show()