Dividir en columnas

Has limpiado considerablemente tus datos eliminando las filas no válidas del Marco de Datos. Ahora quieres realizar algunas transformaciones más generando columnas significativas específicas basadas en el contenido del Marco de datos.

Tienes el contexto spark y la última versión del DataFrame annotations_df. pyspark.sql.functions está disponible bajo el alias F.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Divide el contenido de la columna '_c0' en el carácter de tabulación y guárdalo en una variable llamada split_cols.
Añade las siguientes columnas basadas en las cuatro primeras entradas de la variable anterior: carpeta, nombre de archivo, anchura, altura en un DataFrame llamado split_df.
Añade la variable split_cols como columna.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')

# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____

# Add split_cols as a column
split_df = split_df.____

Editar y ejecutar código