Aan de slagGa gratis aan de slag

Een schema definiëren

Een gedefinieerd schema maken helpt bij de datakwaliteit en de importprestaties. Zoals in de les genoemd, maken we een eenvoudig schema om de volgende kolommen in te lezen:

  • Name
  • Age
  • City

De kolommen Name en City zijn van het type StringType() en de kolom Age is een IntegerType().

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Cursus bekijken

Oefeninstructies

  • Importeer * uit de bibliotheek pyspark.sql.types.
  • Definieer een nieuw schema met de methode StructType.
  • Definieer een StructField voor name, age en city. Elk veld moet overeenkomen met het juiste datatype en niet nullable zijn.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the pyspark.sql.types library
____

# Define a new schema using the StructType method
people_schema = ____([
  # Define a StructField for each field
  StructField('name', ____, False),
  ____('____', IntegerType(), ____)
  ____
])
Code bewerken en uitvoeren