ComeçarComece de graça

Carregando dados do censo

Vamos começar criando seu primeiro DataFrame do PySpark! O arquivo adult_reduced.csv contém um agrupamento de adultos com base em várias categorias demográficas. Esses dados foram adaptados do Censo dos EUA. Há um total de 32562 agrupamentos de adultos.

Vamos carregar o CSV e ver o schema resultante.

Dicionário de dados:

Variável Descrição
age Idade do indivíduo
education_num Escolaridade por grau
marital_status Estado civil
occupation Ocupação
income Renda categórica

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Crie um DataFrame do PySpark a partir do arquivo "adult_reduced.csv" usando o método spark.read.csv().
  • Mostre o DataFrame resultante.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Read in the CSV
census_adult = ____.____.____(____)

# Show the DataFrame
census_adult.____
Editar e executar o código