ComeçarComece de graça

Chega de intermediários

Agora você sabe como colocar dados no Spark via pandas, mas provavelmente está se perguntando por que lidar com pandas? Não seria mais fácil simplesmente ler um arquivo de texto diretamente no Spark? É claro que sim!

Felizmente, a SparkSession tem um atributo chamado .read, que conta com vários métodos para ler diferentes fontes de dados nos DataFrames do Spark. Com isso, você pode criar um DataFrame a partir de um arquivo .csv da mesma forma que com os DataFrames normais do pandas!

A variável file_path é uma string com o caminho do arquivo airports.csv. Esse arquivo contém informações sobre diferentes aeroportos em todo o mundo.

Uma SparkSession chamada spark está disponível em seu espaço de trabalho.

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Use o método .read.csv() para criar um DataFrame do Spark chamado airports

    • O primeiro argumento é file_path

    • Passe o argumento header=True para que o Spark saiba que deve pegar os nomes das colunas na primeira linha do arquivo.

  • Imprima esse DataFrame chamando .show().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"

# Read in the airports data
airports = ____.____.____(____, ____=____)

# Show the data
____.____()
Editar e executar o código