Definir un esquema
Crear un esquema definido ayuda a la calidad de los datos y al rendimiento de la importación. Como se ha mencionado durante la lección, crearemos un esquema sencillo para leer en las siguientes columnas:
- Nombre
- Edad
- Ciudad
Las columnas Name
y City
son StringType()
y la columna Age
es una IntegerType()
.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones del ejercicio
- Importa
*
de la bibliotecapyspark.sql.types
. - Define un nuevo esquema utilizando el método
StructType
. - Define un
StructField
paraname
,age
, ycity
. Cada campo debe corresponder al tipo de dato correcto y no sernullable
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import the pyspark.sql.types library
____
# Define a new schema using the StructType method
people_schema = ____([
# Define a StructField for each field
StructField('name', ____, False),
____('____', IntegerType(), ____)
____
])