Juntando tudo I
Você construiu uma base sólida em PySpark, explorou seus componentes principais e passou por cenários práticos com Spark SQL, DataFrames e operações avançadas. Agora é hora de juntar tudo. Nos próximos dois exercícios, você vai criar uma SparkSession, um DataFrame, fazer cache desse DataFrame, conduzir análises e explicar o resultado!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Importe
SparkSessiondepyspark.sql. - Crie uma nova
SparkSessionchamadafinal_sparkusandoSparkSession.builder.getOrCreate(). - Imprima
my_sparkno console para verificar que é umaSparkSession. - Crie um novo DataFrame a partir de um esquema pré-carregado e definição de colunas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import SparkSession from pyspark.sql
from ____ import ____
# Create my_spark
my_spark = SparkSession.builder.appName(____).____
# Print my_spark
____
# Load dataset into a DataFrame
df = ____(data, schema=columns)
df.show()