ComenzarEmpieza gratis

Cuándo / Si no

Este requisito es similar al anterior, pero ahora quieres añadir varios valores en función de la posición del votante. Modifica tu voter_df DataFrame para añadir un número aleatorio a cualquier miembro votante que esté definido como Councilmember. Utiliza 2 para Mayor y 0 para cualquier otra posición.

El Marco de Datos voter_df está definido y a tu disposición. La biblioteca pyspark.sql.functions está disponible como F.. Puedes utilizar F.rand() para generar el valor aleatorio.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones de ejercicio

  • Añade una columna a voter_df llamada random_val con los resultados del método F.rand() para cualquier votante con el título de Concejal. Pon random_val a 2 para el Alcalde. Establece cualquier otro título con el valor 0.
  • Muestra algunas de las filas del Marco de datos, observando si las cláusulas funcionaban.
  • Utiliza la cláusula .filter para encontrar el 0 en random_val.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Add a column to voter_df for a voter based on their position
voter_df = voter_df.____('random_val',
                               when(voter_df.TITLE == 'Councilmember', ____)
                               .____(____, 2)
                               ____

# Show some of the DataFrame rows
voter_df.show()

# Use the .filter() clause with random_val
voter_df.____(____).show()
Editar y ejecutar código