Unión II
En PySpark, las uniones se realizan utilizando el método DataFrame .join(). Este método toma tres argumentos. El primero es el segundo DataFrame que quieres unir con el primero. El segundo argumento, on, es el nombre de la columna o columnas clave en forma de cadena. Los nombres de las columnas clave deben ser los mismos en cada tabla. El tercer argumento, how, especifica el tipo de unión a realizar. En este curso utilizaremos siempre el valor how="leftouter".
El conjunto de datos flights y un nuevo conjunto de datos llamado airports ya están en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
Examina el DataFrame
airportsllamando a.show(). Observa qué columna clave te permitirá unirairportsa la tablaflights.Cambia el nombre de la columna
faadeairportsadestreasignando el resultado deairports.withColumnRenamed("faa", "dest")aairports.Une el
flightscon el DataFrameairportsen la columnadestllamando al método.join()enflights. Guarda el resultado comoflights_with_airports.El primer argumento debe ser el otro DataFrame,
airports.El argumento
ondebe ser la columna clave.El argumento
howdebe ser"leftouter".
Llama a
.show()enflights_with_airportspara examinar de nuevo los datos. Observa la nueva información que se ha añadido.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)