Chega de intermediários
Agora você sabe como colocar dados no Spark via pandas
, mas provavelmente está se perguntando por que lidar com pandas
? Não seria mais fácil simplesmente ler um arquivo de texto diretamente no Spark? É claro que sim!
Felizmente, a SparkSession
tem um atributo chamado .read
, que conta com vários métodos para ler diferentes fontes de dados nos DataFrames do Spark. Com isso, você pode criar um DataFrame a partir de um arquivo .csv da mesma forma que com os DataFrames normais do pandas
!
A variável file_path
é uma string com o caminho do arquivo airports.csv
. Esse arquivo contém informações sobre diferentes aeroportos em todo o mundo.
Uma SparkSession
chamada spark
está disponível em seu espaço de trabalho.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
Use o método
.read.csv()
para criar um DataFrame do Spark chamadoairports
O primeiro argumento é
file_path
Passe o argumento
header=True
para que o Spark saiba que deve pegar os nomes das colunas na primeira linha do arquivo.
Imprima esse DataFrame chamando
.show()
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()