ComenzarEmpieza gratis

Problema con los datos de la tubería

Después de crear tu canalización rápida, proporcionas el archivo json a un analista de tu equipo. Tras cargar los datos y realizar un par de tareas exploratorias, el analista te dice que hay un problema en el conjunto de datos mientras intenta ordenar los datos de duración. No está segura de cuál es el problema, aparte de que la operación de clasificación no funciona como se esperaba.

Date          Flight Number   Airport     Duration    ID

09/30/2015    2287            ANC         409         107962
12/28/2015    1408            OKC         41          141917
08/11/2015    2287            ANC         410         87978

Tras analizar los datos, ¿qué comando solucionaría el problema?

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Ejercicio interactivo práctico

Convierte la teoría en acción con uno de nuestros ejercicios interactivos

Empieza a hacer ejercicio