Cuándo / Si no
Este requisito es similar al anterior, pero ahora quieres añadir varios valores en función de la posición del votante. Modifica tu voter_df
DataFrame para añadir un número aleatorio a cualquier miembro votante que esté definido como Councilmember
. Utiliza 2 para Mayor
y 0 para cualquier otra posición.
El Marco de Datos voter_df
está definido y a tu disposición. La biblioteca pyspark.sql.functions
está disponible como F.
. Puedes utilizar F.rand()
para generar el valor aleatorio.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones de ejercicio
- Añade una columna a
voter_df
llamadarandom_val
con los resultados del métodoF.rand()
para cualquier votante con el título de Concejal. Ponrandom_val
a 2 para el Alcalde. Establece cualquier otro título con el valor 0. - Muestra algunas de las filas del Marco de datos, observando si las cláusulas funcionaban.
- Utiliza la cláusula
.filter
para encontrar el 0 enrandom_val
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
when(voter_df.TITLE == 'Councilmember', ____)
.____(____, 2)
____
# Show some of the DataFrame rows
voter_df.show()
# Use the .filter() clause with random_val
voter_df.____(____).show()