Unindo voos com seus aeroportos de destino
Você foi contratado como engenheiro de dados por uma empresa global de viagens. Sua primeira tarefa é ajudar a melhorar as operações analisando dados de voos. Você tem dois conjuntos de dados no seu workspace: um com detalhes sobre voos (flights) e outro com informações sobre aeroportos de destino (airports), ambos já disponíveis no seu workspace.
Seu objetivo? Combinar esses conjuntos para criar um conjunto de dados robusto que vincule cada voo ao seu aeroporto de destino.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Examine o DataFrame
airports. Observe qual coluna-chave permitirá unirairportsà tabelaflights. - Una
flightscom o DataFrameairportsna coluna"dest". Salve o resultado comoflights_with_airports. - Examine
flights_with_airportsnovamente. Observe as novas informações que foram adicionadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Examine the data
airports.____()
# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
flights_with_airports.____