Carregar um CSV em um DataFrame
No exercício anterior, você viu um método para criar um DataFrame a partir de um RDD. Em geral, carregar dados de um arquivo CSV é o método mais comum de criação de DataFrames. Neste exercício, você criará um PySpark DataFrame a partir do arquivo people.csv
que já foi fornecido a você como file_path
e confirmará que o objeto criado é um PySpark DataFrame.
Lembre-se de que você já tem uma SparkSession spark
e uma variável file_path
(o caminho para o arquivo people.csv
) disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Crie um DataFrame a partir da variável
file_path
, que é o caminho para o arquivopeople.csv
. - Confirme a saída como PySpark DataFrame.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)
# Check the type of people_df
print("The type of people_df is", ____(people_df))