Carregando dados do censo
Vamos começar criando seu primeiro DataFrame do PySpark! O arquivo adult_reduced.csv contém um agrupamento de adultos com base em várias categorias demográficas. Esses dados foram adaptados do Censo dos EUA. Há um total de 32562 agrupamentos de adultos.
Vamos carregar o CSV e ver o schema resultante.
Dicionário de dados:
| Variável | Descrição |
|---|---|
| age | Idade do indivíduo |
| education_num | Escolaridade por grau |
| marital_status | Estado civil |
| occupation | Ocupação |
| income | Renda categórica |
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Crie um DataFrame do PySpark a partir do arquivo
"adult_reduced.csv"usando o métodospark.read.csv(). - Mostre o DataFrame resultante.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Read in the CSV
census_adult = ____.____.____(____)
# Show the DataFrame
census_adult.____