Aan de slagGa gratis aan de slag

Het schema definiëren

Laten we beginnen met het definiëren van het verwachte schema voor datavalidatie. Dit is een cruciale stap om datakwaliteit in de hele ETL-pijplijn te waarborgen.

Je gebruikt de pointblank-bibliotheek om de schemastructuur vast te leggen.

De gegevensset is al voor je geladen als ts.

Deze oefening maakt deel uit van de cursus

Forecasting-pijplijnen ontwerpen voor productie

Cursus bekijken

Oefeninstructies

  • Begin met het importeren van pointblank.
  • Definieer het schema met de juiste methode.
  • Stel de kolom respondent in op het type object en de kolom value op het type float64.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the required library
import ____ as ____

# Define the schema and set columns
table_schema =  pb.____(
    columns=[
        ("period", "datetime64[ns]"),   
        ("respondent", "____"),
        ("respondent-name", "object"),
        ("type", "object"),
        ("type-name", "object"),
        ("value", "____"),
        ("value-units", "object")])

print(table_schema)
Code bewerken en uitvoeren