ComeçarComece de graça

Problema de dados do pipeline

Depois de criar o pipeline rápido, você fornece o arquivo json a um analista da sua equipe. Depois de carregar os dados e executar algumas tarefas exploratórias, o analista informa a você que há um problema no conjunto de dados ao tentar classificar os dados de duração. Ela não tem certeza de qual é o problema, além do fato de a operação de classificação não funcionar como esperado.

Date          Flight Number   Airport     Duration    ID

09/30/2015    2287            ANC         409         107962
12/28/2015    1408            OKC         41          141917
08/11/2015    2287            ANC         410         87978

Depois de analisar os dados, qual comando corrigiria o problema?

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício