Quando / Caso contrário
Esse requisito é semelhante ao anterior, mas agora você deseja adicionar vários valores com base na posição do eleitor. Modifique seu DataFrame voter_df
para adicionar um número aleatório a qualquer membro votante que seja definido como Councilmember
. Use 2 para Mayor
e 0 para qualquer outra posição.
O quadro de dados voter_df
está definido e disponível para você. A biblioteca pyspark.sql.functions
está disponível como F.
. Você pode usar F.rand()
para gerar o valor aleatório.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Adicione uma coluna a
voter_df
chamadarandom_val
com os resultados do métodoF.rand()
para qualquer eleitor com o título Councilmember. Definarandom_val
como 2 para o prefeito. Defina qualquer outro título como o valor 0. - Mostre algumas das linhas do Data Frame, observando se as cláusulas funcionaram.
- Use a cláusula
.filter
para encontrar 0 emrandom_val
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
when(voter_df.TITLE == 'Councilmember', ____)
.____(____, 2)
____
# Show some of the DataFrame rows
voter_df.show()
# Use the .filter() clause with random_val
voter_df.____(____).show()