Het schema definiëren

Laten we beginnen met het definiëren van het verwachte schema voor datavalidatie. Dit is een cruciale stap om datakwaliteit in de hele ETL-pijplijn te waarborgen.

Je gebruikt de pointblank-bibliotheek om de schemastructuur vast te leggen.

De gegevensset is al voor je geladen als ts.

Deze oefening maakt deel uit van de cursus

Forecasting-pijplijnen ontwerpen voor productie

Bekijk cursus

Oefeninstructies

Begin met het importeren van pointblank.
Definieer het schema met de juiste methode.
Stel de kolom respondent in op het type object en de kolom value op het type float64.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the required library
import ____ as ____

# Define the schema and set columns
table_schema =  pb.____(
    columns=[
        ("period", "datetime64[ns]"),   
        ("respondent", "____"),
        ("respondent-name", "object"),
        ("type", "object"),
        ("type-name", "object"),
        ("value", "____"),
        ("value-units", "object")])

print(table_schema)

Code bewerken en uitvoeren