Especificação de schema
Já carregamos schemas de várias maneiras. Agora, vamos definir um schema diretamente. Vamos usar um dicionário de dados:
| Variable | Description |
|---|---|
| age | Individual age |
| education_num | Education by degree |
| marital_status | Marital status |
| occupation | Occupation |
| income | Categorical income |
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Especifique o schema dos dados, definindo os nomes das colunas (
age,education_num,marital_status,occupationeincome) e os tipos de cada coluna, ajustando uma vírgula para o argumentosep=. - Leia os dados de um arquivo separado por vírgulas chamado
adult_reduced_100.csv. - Imprima o schema do DataFrame resultante.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
____("____",____()),
____("marital_status",StringType()),
StructField("____",____()),
____("____",____()),
])
# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)
# Print out the schema
census_adult.____