ComeçarComece de graça

Especificação de schema

Já carregamos schemas de várias maneiras. Agora, vamos definir um schema diretamente. Vamos usar um dicionário de dados:

Variable Description
age Individual age
education_num Education by degree
marital_status Marital status
occupation Occupation
income Categorical income

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Especifique o schema dos dados, definindo os nomes das colunas (age,education_num,marital_status,occupation e income) e os tipos de cada coluna, ajustando uma vírgula para o argumento sep=.
  • Leia os dados de um arquivo separado por vírgulas chamado adult_reduced_100.csv.
  • Imprima o schema do DataFrame resultante.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

# Fill in the schema with the columns you need from the exercise instructions
schema = StructType([____("____",____()),
                     ____("____",____()),
                     ____("marital_status",StringType()),
                     StructField("____",____()),
                     ____("____",____()),
                    ])

# Read in the CSV, using the schema you defined above
census_adult = spark.read.csv("adult_reduced_100.csv", sep='____', header=False, schema=schema)

# Print out the schema
census_adult.____
Editar e executar o código