Unión II
En PySpark, las uniones se realizan utilizando el método DataFrame .join()
. Este método toma tres argumentos. El primero es el segundo DataFrame que quieres unir con el primero. El segundo argumento, on
, es el nombre de la columna o columnas clave en forma de cadena. Los nombres de las columnas clave deben ser los mismos en cada tabla. El tercer argumento, how
, especifica el tipo de unión a realizar. En este curso utilizaremos siempre el valor how="leftouter"
.
El conjunto de datos flights
y un nuevo conjunto de datos llamado airports
ya están en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
Examina el DataFrame
airports
llamando a.show()
. Observa qué columna clave te permitirá unirairports
a la tablaflights
.Cambia el nombre de la columna
faa
deairports
adest
reasignando el resultado deairports.withColumnRenamed("faa", "dest")
aairports
.Une el
flights
con el DataFrameairports
en la columnadest
llamando al método.join()
enflights
. Guarda el resultado comoflights_with_airports
.El primer argumento debe ser el otro DataFrame,
airports
.El argumento
on
debe ser la columna clave.El argumento
how
debe ser"leftouter"
.
Llama a
.show()
enflights_with_airports
para examinar de nuevo los datos. Observa la nueva información que se ha añadido.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)