Problema con los datos de la tubería
Después de crear tu canalización rápida, proporcionas el archivo json a un analista de tu equipo. Tras cargar los datos y realizar un par de tareas exploratorias, el analista te dice que hay un problema en el conjunto de datos mientras intenta ordenar los datos de duración. No está segura de cuál es el problema, aparte de que la operación de clasificación no funciona como se esperaba.
Date Flight Number Airport Duration ID
09/30/2015 2287 ANC 409 107962
12/28/2015 1408 OKC 41 141917
08/11/2015 2287 ANC 410 87978
Tras analizar los datos, ¿qué comando solucionaría el problema?
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Ejercicio interactivo práctico
Convierte la teoría en acción con uno de nuestros ejercicios interactivos
