Aan de slagGa gratis aan de slag

Data inspecteren in een PySpark DataFrame

Gegevens inspecteren is cruciaal voordat je gaat analyseren, zoals plotten, modelleren, trainen, enzovoort. In deze eenvoudige oefening bekijk je de data in de DataFrame people_df die je in de vorige oefening hebt gemaakt, met behulp van basisoperators voor DataFrames.

Onthoud: je hebt al een SparkSession spark en een DataFrame people_df beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Print de eerste 10 observaties in de DataFrame people_df.
  • Tel het aantal rijen in de DataFrame people_df.
  • Hoeveel kolommen heeft de DataFrame people_df en wat zijn hun namen?

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print the first 10 observations 
people_df.____(10)

# Count the number of rows 
print("There are {} rows in the people_df DataFrame.".format(people_df.____()))

# Count the number of columns and print their names
print("There are {} columns in the people_df DataFrame and their names are {}".format(len(people_df.____), people_df.____))
Code bewerken en uitvoeren