ComenzarEmpieza gratis

Integrándolo todo I

Has construido una base sólida en PySpark, has explorado sus componentes clave y has trabajado con escenarios prácticos usando Spark SQL, DataFrames y operaciones avanzadas. Ahora toca integrarlo todo. En los dos próximos ejercicios, vas a crear una SparkSession, un DataFrame, poner en caché ese DataFrame, hacer análisis y explicar el resultado.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Importa SparkSession desde pyspark.sql.
  • Crea una nueva SparkSession llamada final_spark usando SparkSession.builder.getOrCreate().
  • Imprime my_spark en la consola para comprobar que es una SparkSession.
  • Crea un nuevo DataFrame a partir de un esquema y definición de columnas precargados.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Editar y ejecutar código