Aan de slagBegin gratis

Het schema definiëren

Laten we beginnen met het definiëren van het verwachte schema voor datavalidatie. Dit is een cruciale stap om datakwaliteit in de hele ETL-pijplijn te waarborgen.

Je gebruikt de pointblank-bibliotheek om de schemastructuur vast te leggen.

De gegevensset is al voor je geladen als ts.

Deze oefening maakt deel uit van de cursus

Forecasting-pijplijnen ontwerpen voor productie

Bekijk cursus

Oefeninstructies

  • Begin met het importeren van pointblank.
  • Definieer het schema met de juiste methode.
  • Stel de kolom respondent in op het type object en de kolom value op het type float64.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the required library
import ____ as ____

# Define the schema and set columns
table_schema =  pb.____(
    columns=[
        ("period", "datetime64[ns]"),   
        ("respondent", "____"),
        ("respondent-name", "object"),
        ("type", "object"),
        ("type-name", "object"),
        ("value", "____"),
        ("value-units", "object")])

print(table_schema)
Code bewerken en uitvoeren