Inferir e filtrar
Imagine que você tem um conjunto de dados do censo que possui cabeçalho e esquema. Vamos carregar esse conjunto e deixar o PySpark inferir o esquema. O que você observa ao filtrar por adultos com mais de 40 anos?
Lembre-se: já existe uma SparkSession chamada spark no seu ambiente de trabalho!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Carregue o arquivo JSON
adults.json. - Filtre os dados para incluir adultos com
agemaior que40. - Mostre os resultados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the dataframe
census_df = spark.read.json("adults.json")
# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)
# Show the result
____