Census-gegevens laden
Laten we beginnen met het maken van je eerste PySpark DataFrame! Het bestand adult_reduced.csv bevat een groepering van volwassenen op basis van verschillende demografische categorieën. Deze gegevens zijn aangepast uit de US Census. In totaal zijn er 32.562 groeperingen van volwassenen.
We moeten het CSV-bestand laden en de resulterende schema bekijken.
Gegevenswoordenboek:
| Variabele | Beschrijving |
|---|---|
| age | Leeftijd van de persoon |
| education_num | Opleidingsniveau (graad) |
| marital_status | Burgerlijke staat |
| occupation | Beroep |
| income | Categorisch inkomen |
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Maak een PySpark DataFrame van het bestand
"adult_reduced.csv"met de methodespark.read.csv(). - Laat het resulterende DataFrame zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____