Data inspecteren in een PySpark DataFrame
Gegevens inspecteren is cruciaal voordat je gaat analyseren, zoals plotten, modelleren, trainen, enzovoort. In deze eenvoudige oefening bekijk je de data in de DataFrame people_df die je in de vorige oefening hebt gemaakt, met behulp van basisoperators voor DataFrames.
Onthoud: je hebt al een SparkSession spark en een DataFrame people_df beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Print de eerste 10 observaties in de DataFrame
people_df. - Tel het aantal rijen in de DataFrame
people_df. - Hoeveel kolommen heeft de DataFrame
people_dfen wat zijn hun namen?
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the first 10 observations
people_df.____(10)
# Count the number of rows
print("There are {} rows in the people_df DataFrame.".format(people_df.____()))
# Count the number of columns and print their names
print("There are {} columns in the people_df DataFrame and their names are {}".format(len(people_df.____), people_df.____))