Aan de slagBegin gratis

Census-gegevens laden

Laten we beginnen met het maken van je eerste PySpark DataFrame! Het bestand adult_reduced.csv bevat een groepering van volwassenen op basis van verschillende demografische categorieën. Deze gegevens zijn aangepast uit de US Census. In totaal zijn er 32.562 groeperingen van volwassenen.

We moeten het CSV-bestand laden en de resulterende schema bekijken.

Gegevenswoordenboek:

Variabele Beschrijving
age Leeftijd van de persoon
education_num Opleidingsniveau (graad)
marital_status Burgerlijke staat
occupation Beroep
income Categorisch inkomen

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Bekijk cursus

Oefeninstructies

  • Maak een PySpark DataFrame van het bestand "adult_reduced.csv" met de methode spark.read.csv().
  • Laat het resulterende DataFrame zien.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Read in the CSV
census_adult = ____.____.____(____)

# Show the DataFrame
census_adult.____
Code bewerken en uitvoeren