Schema uitschrijven
We hebben schema’s nu op meerdere manieren ingeladen. Laten we daarom eens rechtstreeks een schema definiëren. We gebruiken een gegevenswoordenboek:
| Variable | Description |
|---|---|
| age | Leeftijd van de persoon |
| education_num | Opleidingsniveau (cijfer) |
| marital_status | Burgerlijke staat |
| occupation | Beroep |
| income | Categorisch inkomen |
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Specificeer het dataschema met kolomnamen (
age,education_num,marital_status,occupationenincome) en kolomtypen, en zet een komma als scheidingsteken met het argumentsep=. - Lees data in uit een kommagescheiden bestand met de naam
adult_reduced_100.csv. - Print het schema van de resulterende DataFrame.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
____("____",____()),
____("marital_status",StringType()),
StructField("____",____()),
____("____",____()),
])
# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)
# Print out the schema
census_adult.____