Integrándolo todo I
Has construido una base sólida en PySpark, has explorado sus componentes clave y has trabajado con escenarios prácticos usando Spark SQL, DataFrames y operaciones avanzadas. Ahora toca integrarlo todo. En los dos próximos ejercicios, vas a crear una SparkSession, un DataFrame, poner en caché ese DataFrame, hacer análisis y explicar el resultado.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Importa
SparkSessiondesdepyspark.sql. - Crea una nueva
SparkSessionllamadafinal_sparkusandoSparkSession.builder.getOrCreate(). - Imprime
my_sparken la consola para comprobar que es unaSparkSession. - Crea un nuevo DataFrame a partir de un esquema y definición de columnas precargados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import SparkSession from pyspark.sql
from ____ import ____
# Create my_spark
my_spark = SparkSession.builder.appName(____).____
# Print my_spark
____
# Load dataset into a DataFrame
df = ____(data, schema=columns)
df.show()