Aperçu de GX
Bravo pour la création de votre Data Context ! C’est une première étape déterminante pour entrer dans l’univers de Great Expectations. Jetons un coup d’œil à tout ce que vous pourrez faire d’ici la fin du cours.
Le code à droite utilise le Data Context pour créer une Data Source et un Data Asset pandas, qui définissent le format des données. Ensuite, il crée une Batch Definition pour lire les données. Pour finir, il crée une Expectation Suite, qui contient une Expectation, ainsi qu’une Validation Definition, qui exécute l’Expectation Suite sur le Batch de données. Ne vous inquiétez pas si ces termes ne sont pas encore clairs : tout fera sens d’ici la fin du cours !
Great Expectations a déjà été importé pour vous sous le nom gx.
Cet exercice fait partie du cours
Introduction à la qualité des données avec Great Expectations
Instructions
- Appuyez sur
Exécuter le codepour afficher le résultat du code.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create Data Context
context = gx.get_context()
# Create pandas Data Source, Data Asset, and Batch Definition
data_source = context.data_sources.add_pandas(
name="my_pandas_datasource"
)
data_asset = data_source.add_dataframe_asset(
name="my_data_asset"
)
batch_definition = data_asset.add_batch_definition_whole_dataframe(
name="my_batch_definition"
)
batch = batch_definition.get_batch(
batch_parameters={"dataframe": dataframe}
)
# Create Expectation Suite and Validation Definition
suite = context.suites.add(
gx.ExpectationSuite(name="my_suite", suite_parameters={})
)
validation_definition = gx.ValidationDefinition(
data=batch_definition, suite=suite, name="validation"
)
# Establish and evaluate an Expectation
expectation = gx.expectations.ExpectTableRowCountToBeBetween(
min_value=50000, max_value=100000
)
validation_results = batch.validate(expect=expectation)
print(validation_results.success)