Análisis de perros
Has hecho una limpieza considerable del conjunto de datos inicial, pero ahora necesitas analizar los datos un poco más a fondo. Ahora han surgido varias preguntas sobre el tipo de perros que se ven en una imagen y algunos detalles relativos a las imágenes. Te das cuenta de que para responder a estas preguntas, necesitas procesar los datos en un tipo específico. Antes de poder utilizarlo, tendrás que crear un esquema / tipo para representar los datos del perro.
El joined_df DataFrame es como lo definiste la última vez, y se han importado todos los pyspark.sql.types.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones del ejercicio
- Selecciona la columna que representa los datos del perro en el Marco de datos y muestra las 10 primeras filas sin truncar.
- Crea un nuevo esquema como has hecho antes, utilizando raza, iniciox, inicioy, finx y finy como nombres. Asegúrate de especificar los tipos de datos adecuados para cada campo del esquema (cualquier valor numérico es un entero).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))
# Define a schema type for the details in the dog list
DogType = ____([
StructField("breed", ____, False),
StructField("start_x", ____, False),
____,
____,
____
])