ComeçarComece de graça

Juntando tudo I

Você construiu uma base sólida em PySpark, explorou seus componentes principais e passou por cenários práticos com Spark SQL, DataFrames e operações avançadas. Agora é hora de juntar tudo. Nos próximos dois exercícios, você vai criar uma SparkSession, um DataFrame, fazer cache desse DataFrame, conduzir análises e explicar o resultado!

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Importe SparkSession de pyspark.sql.
  • Crie uma nova SparkSession chamada final_spark usando SparkSession.builder.getOrCreate().
  • Imprima my_spark no console para verificar que é uma SparkSession.
  • Crie um novo DataFrame a partir de um esquema pré-carregado e definição de colunas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Editar e executar o código