Aan de slagGa gratis aan de slag

Census-gegevens laden

Laten we beginnen met het maken van je eerste PySpark DataFrame! Het bestand adult_reduced.csv bevat een groepering van volwassenen op basis van verschillende demografische categorieën. Deze gegevens zijn aangepast uit de US Census. In totaal zijn er 32.562 groeperingen van volwassenen.

We moeten het CSV-bestand laden en de resulterende schema bekijken.

Gegevenswoordenboek:

Variabele Beschrijving
age Leeftijd van de persoon
education_num Opleidingsniveau (graad)
marital_status Burgerlijke staat
occupation Beroep
income Categorisch inkomen

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Maak een PySpark DataFrame van het bestand "adult_reduced.csv" met de methode spark.read.csv().
  • Laat het resulterende DataFrame zien.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Read in the CSV
census_adult = ____.____.____(____)

# Show the DataFrame
census_adult.____
Code bewerken en uitvoeren