Definindo o esquema
Vamos começar definindo o esquema esperado para a validação de dados. Essa é uma etapa essencial para garantir a qualidade dos dados em toda a pipeline de ETL.
Você usará a biblioteca pointblank para definir a estrutura do esquema.
O conjunto de dados já foi carregado para você como ts.
Este exercício faz parte do curso
Projetando Pipelines de Previsão para Produção
Instruções do exercício
- Comece importando
pointblank. - Defina o esquema usando o método correto.
- Defina a coluna
respondentcomo tipoobjecte a colunavaluecomo tipofloat64.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the required library
import ____ as ____
# Define the schema and set columns
table_schema = pb.____(
columns=[
("period", "datetime64[ns]"),
("respondent", "____"),
("respondent-name", "object"),
("type", "object"),
("type-name", "object"),
("value", "____"),
("value-units", "object")])
print(table_schema)