Cuándo / Si no

Este requisito es similar al anterior, pero ahora quieres añadir varios valores en función de la posición del votante. Modifica tu voter_df DataFrame para añadir un número aleatorio a cualquier miembro votante que esté definido como Councilmember. Utiliza 2 para Mayor y 0 para cualquier otra posición.

El Marco de Datos voter_df está definido y a tu disposición. La biblioteca pyspark.sql.functions está disponible como F.. Puedes utilizar F.rand() para generar el valor aleatorio.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Añade una columna a voter_df llamada random_val con los resultados del método F.rand() para cualquier votante con el título de Concejal. Pon random_val a 2 para el Alcalde. Establece cualquier otro título con el valor 0.
Muestra algunas de las filas del Marco de datos, observando si las cláusulas funcionaban.
Utiliza la cláusula .filter para encontrar el 0 en random_val.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
                               when(voter_df.TITLE == 'Councilmember', ____)
                               .____(____, 2)
                               ____

# Show some of the DataFrame rows
voter_df.show()

# Use the .filter() clause with random_val
voter_df.____(____).show()

Editar y ejecutar código