Inspeção de dados no PySpark DataFrame
A inspeção de dados é muito importante antes de realizar análises como plotagem, modelagem, treinamento etc. Neste exercício simples, você inspecionará os dados no DataFrame people_df
que você criou no exercício anterior usando os operadores básicos do DataFrame.
Lembre-se de que você já tem um SparkSession spark
e um DataFrame people_df
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Imprima as 10 primeiras observações no DataFrame
people_df
. - Conte o número de linhas no DataFrame
people_df
. - Quantas colunas o DataFrame
people_df
tem e quais são seus nomes?
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Print the first 10 observations
people_df.____(10)
# Count the number of rows
print("There are {} rows in the people_df DataFrame.".format(people_df.____()))
# Count the number of columns and print their names
print("There are {} columns in the people_df DataFrame and their names are {}".format(len(people_df.____), people_df.____))