ComenzarEmpieza gratis

Análisis de perros

Has hecho una limpieza considerable del conjunto de datos inicial, pero ahora necesitas analizar los datos un poco más a fondo. Ahora han surgido varias preguntas sobre el tipo de perros que se ven en una imagen y algunos detalles relativos a las imágenes. Te das cuenta de que para responder a estas preguntas, necesitas procesar los datos en un tipo específico. Antes de poder utilizarlo, tendrás que crear un esquema / tipo para representar los datos del perro.

El joined_df DataFrame es como lo definiste la última vez, y se han importado todos los pyspark.sql.types.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

  • Selecciona la columna que representa los datos del perro en el Marco de datos y muestra las 10 primeras filas sin truncar.
  • Crea un nuevo esquema como has hecho antes, utilizando raza, iniciox, inicioy, finx y finy como nombres. Asegúrate de especificar los tipos de datos adecuados para cada campo del esquema (cualquier valor numérico es un entero).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Select the dog details and show 10 untruncated rows
print(joined_df.____.show(____, truncate=____))

# Define a schema type for the details in the dog list
DogType = ____([
	StructField("breed", ____, False),
    StructField("start_x", ____, False),
    ____,
    ____,
    ____
])
Editar y ejecutar código