Cuándo / Si no
Este requisito es similar al anterior, pero ahora quieres añadir varios valores en función de la posición del votante. Modifica tu voter_df DataFrame para añadir un número aleatorio a cualquier miembro votante que esté definido como Councilmember. Utiliza 2 para Mayor y 0 para cualquier otra posición.
El Marco de Datos voter_df está definido y a tu disposición. La biblioteca pyspark.sql.functions está disponible como F.. Puedes utilizar F.rand() para generar el valor aleatorio.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones del ejercicio
- Añade una columna a
voter_dfllamadarandom_valcon los resultados del métodoF.rand()para cualquier votante con el título de Concejal. Ponrandom_vala 2 para el Alcalde. Establece cualquier otro título con el valor 0. - Muestra algunas de las filas del Marco de datos, observando si las cláusulas funcionaban.
- Utiliza la cláusula
.filterpara encontrar el 0 enrandom_val.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
when(voter_df.TITLE == 'Councilmember', ____)
.____(____, 2)
____
# Show some of the DataFrame rows
voter_df.show()
# Use the .filter() clause with random_val
voter_df.____(____).show()