ComeçarComece de graça

Quando / Caso contrário

Esse requisito é semelhante ao anterior, mas agora você deseja adicionar vários valores com base na posição do eleitor. Modifique seu DataFrame voter_df para adicionar um número aleatório a qualquer membro votante que seja definido como Councilmember. Use 2 para Mayor e 0 para qualquer outra posição.

O quadro de dados voter_df está definido e disponível para você. A biblioteca pyspark.sql.functions está disponível como F.. Você pode usar F.rand() para gerar o valor aleatório.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

  • Adicione uma coluna a voter_df chamada random_val com os resultados do método F.rand() para qualquer eleitor com o título Councilmember. Defina random_val como 2 para o prefeito. Defina qualquer outro título como o valor 0.
  • Mostre algumas das linhas do Data Frame, observando se as cláusulas funcionaram.
  • Use a cláusula .filter para encontrar 0 em random_val.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
                               when(voter_df.TITLE == 'Councilmember', ____)
                               .____(____, 2)
                               ____

# Show some of the DataFrame rows
voter_df.show()

# Use the .filter() clause with random_val
voter_df.____(____).show()
Editar e executar o código