Análisis de perros
Has hecho una limpieza considerable del conjunto de datos inicial, pero ahora necesitas analizar los datos un poco más a fondo. Ahora han surgido varias preguntas sobre el tipo de perros que se ven en una imagen y algunos detalles relativos a las imágenes. Te das cuenta de que para responder a estas preguntas, necesitas procesar los datos en un tipo específico. Antes de poder utilizarlo, tendrás que crear un esquema / tipo para representar los datos del perro.
El joined_df
DataFrame es como lo definiste la última vez, y se han importado todos los pyspark.sql.types
.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones de ejercicio
- Selecciona la columna que representa los datos del perro en el Marco de datos y muestra las 10 primeras filas sin truncar.
- Crea un nuevo esquema como has hecho antes, utilizando raza, iniciox, inicioy, finx y finy como nombres. Asegúrate de especificar los tipos de datos adecuados para cada campo del esquema (cualquier valor numérico es un entero).
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))
# Define a schema type for the details in the dog list
DogType = ____([
StructField("breed", ____, False),
StructField("start_x", ____, False),
____,
____,
____
])