Sneak peek van GX
Goed gedaan met het aanmaken van je Data Context! Dit is de krachtige eerste stap in de wereld van Great Expectations. Laten we alvast een sneak peek nemen van alle toffe dingen die je aan het eind van de cursus kunt doen.
De code rechts gebruikt de Data Context om een pandas Data Source en Data Asset te maken, die het formaat van de data definiëren. Vervolgens maakt het een Batch Definition om de data in te lezen. Tot slot maakt het een Expectation Suite, die een Expectation bevat, en een Validation Definition, die de Expectation Suite uitvoert op de Batch met data. Geen zorgen als je deze termen nu nog niet snapt — aan het eind van de cursus is alles duidelijk!
Great Expectations is alvast voor je geïmporteerd als gx.
Deze oefening maakt deel uit van de cursus
Kennismaking met Datakwaliteit met Great Expectations
Oefeninstructies
- Druk op
Run Codeom de uitvoer van de code te zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create Data Context
context = gx.get_context()
# Create pandas Data Source, Data Asset, and Batch Definition
data_source = context.data_sources.add_pandas(
name="my_pandas_datasource"
)
data_asset = data_source.add_dataframe_asset(
name="my_data_asset"
)
batch_definition = data_asset.add_batch_definition_whole_dataframe(
name="my_batch_definition"
)
batch = batch_definition.get_batch(
batch_parameters={"dataframe": dataframe}
)
# Create Expectation Suite and Validation Definition
suite = context.suites.add(
gx.ExpectationSuite(name="my_suite", suite_parameters={})
)
validation_definition = gx.ValidationDefinition(
data=batch_definition, suite=suite, name="validation"
)
# Establish and evaluate an Expectation
expectation = gx.expectations.ExpectTableRowCountToBeBetween(
min_value=50000, max_value=100000
)
validation_results = batch.validate(expect=expectation)
print(validation_results.success)