ComeçarComece de graça

Inferir e filtrar

Imagine que você tem um conjunto de dados do censo que possui cabeçalho e esquema. Vamos carregar esse conjunto e deixar o PySpark inferir o esquema. O que você observa ao filtrar por adultos com mais de 40 anos?

Lembre-se: já existe uma SparkSession chamada spark no seu ambiente de trabalho!

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Carregue o arquivo JSON adults.json.
  • Filtre os dados para incluir adultos com age maior que 40.
  • Mostre os resultados.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the dataframe
census_df = spark.read.json("adults.json")

# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)

# Show the result
____
Editar e executar o código