Chega de intermediários
Agora você sabe como colocar dados no Spark via pandas, mas provavelmente está se perguntando por que lidar com pandas? Não seria mais fácil simplesmente ler um arquivo de texto diretamente no Spark? É claro que sim!
Felizmente, a SparkSession tem um atributo chamado .read, que conta com vários métodos para ler diferentes fontes de dados nos DataFrames do Spark. Com isso, você pode criar um DataFrame a partir de um arquivo .csv da mesma forma que com os DataFrames normais do pandas!
A variável file_path é uma string com o caminho do arquivo airports.csv. Esse arquivo contém informações sobre diferentes aeroportos em todo o mundo.
Uma SparkSession chamada spark está disponível em seu espaço de trabalho.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
Use o método
.read.csv()para criar um DataFrame do Spark chamadoairportsO primeiro argumento é
file_pathPasse o argumento
header=Truepara que o Spark saiba que deve pegar os nomes das colunas na primeira linha do arquivo.
Imprima esse DataFrame chamando
.show().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()