Problema de dados do pipeline
Depois de criar o pipeline rápido, você fornece o arquivo json a um analista da sua equipe. Depois de carregar os dados e executar algumas tarefas exploratórias, o analista informa a você que há um problema no conjunto de dados ao tentar classificar os dados de duração. Ela não tem certeza de qual é o problema, além do fato de a operação de classificação não funcionar como esperado.
Date Flight Number Airport Duration ID
09/30/2015 2287 ANC 409 107962
12/28/2015 1408 OKC 41 141917
08/11/2015 2287 ANC 410 87978
Depois de analisar os dados, qual comando corrigiria o problema?
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
