Aan de slagGa gratis aan de slag

Schema uitschrijven

We hebben schema’s nu op meerdere manieren ingeladen. Laten we daarom eens rechtstreeks een schema definiëren. We gebruiken een gegevenswoordenboek:

Variable Description
age Leeftijd van de persoon
education_num Opleidingsniveau (cijfer)
marital_status Burgerlijke staat
occupation Beroep
income Categorisch inkomen

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Specificeer het dataschema met kolomnamen (age,education_num,marital_status,occupation en income) en kolomtypen, en zet een komma als scheidingsteken met het argument sep=.
  • Lees data in uit een kommagescheiden bestand met de naam adult_reduced_100.csv.
  • Print het schema van de resulterende DataFrame.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
                     ____("____",____()),
                     ____("marital_status",StringType()),
                     StructField("____",____()),
                     ____("____",____()),
                    ])

# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)

# Print out the schema
census_adult.____
Code bewerken en uitvoeren