Aan de slagBegin gratis

Een schema definiëren

Een gedefinieerd schema maken helpt bij de datakwaliteit en de importprestaties. Zoals in de les genoemd, maken we een eenvoudig schema om de volgende kolommen in te lezen:

  • Name
  • Age
  • City

De kolommen Name en City zijn van het type StringType() en de kolom Age is een IntegerType().

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Bekijk cursus

Oefeninstructies

  • Importeer * uit de bibliotheek pyspark.sql.types.
  • Definieer een nieuw schema met de methode StructType.
  • Definieer een StructField voor name, age en city. Elk veld moet overeenkomen met het juiste datatype en niet nullable zijn.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the pyspark.sql.types library
____

# Define a new schema using the StructType method
people_schema = ____([
  # Define a StructField for each field
  StructField('name', ____, False),
  ____('____', IntegerType(), ____)
  ____
])
Code bewerken en uitvoeren