ComeçarComece gratuitamente

Carregar um CSV em um DataFrame

No exercício anterior, você viu um método para criar um DataFrame a partir de um RDD. Em geral, carregar dados de um arquivo CSV é o método mais comum de criação de DataFrames. Neste exercício, você criará um PySpark DataFrame a partir do arquivo people.csv que já foi fornecido a você como file_path e confirmará que o objeto criado é um PySpark DataFrame.

Lembre-se de que você já tem uma SparkSession spark e uma variável file_path (o caminho para o arquivo people.csv ) disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Crie um DataFrame a partir da variável file_path, que é o caminho para o arquivo people.csv.
  • Confirme a saída como PySpark DataFrame.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))
Editar e executar código