Divisão em colunas

Você limpou consideravelmente seus dados ao remover as linhas inválidas do DataFrame. Agora você deseja realizar algumas transformações adicionais gerando colunas significativas específicas com base no conteúdo do DataFrame.

Você tem o contexto spark e a versão mais recente do DataFrame annotations_df. pyspark.sql.functions está disponível sob o alias F.

Este exercicio faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercicio

Divida o conteúdo da coluna '_c0' no caractere de tabulação e armazene-o em uma variável chamada split_cols.
Adicione as seguintes colunas com base nas quatro primeiras entradas da variável acima: pasta, nome do arquivo, largura, altura em um DataFrame chamado split_df.
Adicione a variável split_cols como uma coluna.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')

# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____

# Add split_cols as a column
split_df = split_df.____

Editar e Executar Código