Definição de um esquema
A criação de um esquema definido ajuda na qualidade dos dados e no desempenho da importação. Conforme mencionado na lição, criaremos um esquema simples para ler as colunas a seguir:
- Nome
- Idade
- Cidade
As colunas Name
e City
são StringType()
e a coluna Age
é uma IntegerType()
.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções de exercício
- Importe
*
da bibliotecapyspark.sql.types
. - Defina um novo esquema usando o método
StructType
. - Defina um
StructField
paraname
,age
ecity
. Cada campo deve corresponder ao tipo de dado correto e não deve sernullable
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])