Het schema definiëren
Laten we beginnen met het definiëren van het verwachte schema voor datavalidatie. Dit is een cruciale stap om datakwaliteit in de hele ETL-pijplijn te waarborgen.
Je gebruikt de pointblank-bibliotheek om de schemastructuur vast te leggen.
De gegevensset is al voor je geladen als ts.
Deze oefening maakt deel uit van de cursus
Forecasting-pijplijnen ontwerpen voor productie
Oefeninstructies
- Begin met het importeren van
pointblank. - Definieer het schema met de juiste methode.
- Stel de kolom
respondentin op het typeobjecten de kolomvalueop het typefloat64.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the required library
import ____ as ____
# Define the schema and set columns
table_schema = pb.____(
columns=[
("period", "datetime64[ns]"),
("respondent", "____"),
("respondent-name", "object"),
("type", "object"),
("type-name", "object"),
("value", "____"),
("value-units", "object")])
print(table_schema)