Divisão em colunas
Você limpou consideravelmente seus dados ao remover as linhas inválidas do DataFrame. Agora você deseja realizar algumas transformações adicionais gerando colunas significativas específicas com base no conteúdo do DataFrame.
Você tem o contexto spark
e a versão mais recente do DataFrame annotations_df
. pyspark.sql.functions
está disponível sob o alias F
.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Divida o conteúdo da coluna
'_c0'
no caractere de tabulação e armazene-o em uma variável chamadasplit_cols
. - Adicione as seguintes colunas com base nas quatro primeiras entradas da variável acima: pasta, nome do arquivo, largura, altura em um DataFrame chamado
split_df
. - Adicione a variável
split_cols
como uma coluna.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split the content of _c0 on the tab character (aka, '\t')
split_cols = ____(annotations_df['____'], '\t')
# Add the columns folder, filename, width, and height
split_df = annotations_df.withColumn('folder', split_cols.getItem(____))
split_df = split_df.withColumn('filename', ____
split_df = split_df.____
____
# Add split_cols as a column
split_df = split_df.____