ComenzarEmpieza gratis

Unión II

En PySpark, las uniones se realizan utilizando el método DataFrame .join(). Este método toma tres argumentos. El primero es el segundo DataFrame que quieres unir con el primero. El segundo argumento, on, es el nombre de la columna o columnas clave en forma de cadena. Los nombres de las columnas clave deben ser los mismos en cada tabla. El tercer argumento, how, especifica el tipo de unión a realizar. En este curso utilizaremos siempre el valor how="leftouter".

El conjunto de datos flights y un nuevo conjunto de datos llamado airports ya están en tu espacio de trabajo.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Examina el DataFrame airports llamando a .show(). Observa qué columna clave te permitirá unir airports a la tabla flights.

  • Cambia el nombre de la columna faa de airports a dest reasignando el resultado de airports.withColumnRenamed("faa", "dest") a airports.

  • Une el flights con el DataFrame airports en la columna dest llamando al método .join() en flights. Guarda el resultado como flights_with_airports.

    • El primer argumento debe ser el otro DataFrame, airports.

    • El argumento on debe ser la columna clave.

    • El argumento how debe ser "leftouter".

  • Llama a .show() en flights_with_airports para examinar de nuevo los datos. Observa la nueva información que se ha añadido.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)
Editar y ejecutar código