Dividir en columnas
Has limpiado considerablemente tus datos eliminando las filas no válidas del Marco de Datos. Ahora quieres realizar algunas transformaciones más generando columnas significativas específicas basadas en el contenido del Marco de datos.
Tienes el contexto spark
y la última versión del DataFrame annotations_df
. pyspark.sql.functions
está disponible bajo el alias F
.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones del ejercicio
- Divide el contenido de la columna
'_c0'
en el carácter de tabulación y guárdalo en una variable llamadasplit_cols
. - Añade las siguientes columnas basadas en las cuatro primeras entradas de la variable anterior: carpeta, nombre de archivo, anchura, altura en un DataFrame llamado
split_df
. - Añade la variable
split_cols
como columna.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')
# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____
# Add split_cols as a column
split_df = split_df.____