Aan de slagGa gratis aan de slag

Deel 2: SQL-queries op DataFrame

De DataFrame fifa_df die we hebben gemaakt, bevat extra informatie over datatypes en kolomnamen. Dankzij deze extra informatie kan PySpark SQL SQL-queries uitvoeren op een DataFrame. SQL-queries zijn beknopt en eenvoudiger uit te voeren dan DataFrame-bewerkingen. Maar om SQL-queries op een DataFrame toe te passen, moet je eerst een tijdelijke view van de DataFrame als tabel maken en vervolgens SQL-queries uitvoeren op de gemaakte tabel (SQL-queries programmatiche uitvoeren).

In dit tweede deel maak je een tijdelijke tabel van de DataFrame fifa_df en voer je SQL-queries uit om de kolom 'Age' van spelers uit Germany op te halen.

Je hebt al een SparkContext spark en fifa_df beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Maak de tijdelijke tabel fifa_df_table van de DataFrame fifa_df.
  • Stel een "query" op om de kolom "Age" van spelers uit Germany in fifa_df_table op te halen.
  • Pas de SQL-"query" toe en maak een nieuwe DataFrame fifa_df_germany_age.
  • Bereken de basisstatistieken van de gemaakte DataFrame.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')

# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''

# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)

# Generate basic statistics
fifa_df_germany_age.____().show()
Code bewerken en uitvoeren