Première exploration de données censurées
Vous êtes le ou la data scientist principal·e du gouvernement national d’un petit pays nommé Data Land. Vous contribuez à rédiger la loi définissant la durée d’un mandat présidentiel. Comme votre pays s’appuie sur les données pour chaque décision, vous cherchez des réponses dans un DataFrame de 1808 régimes couvrant 202 pays, appelé regime_durations. Combien de temps les régimes durent‑ils en moyenne ? Le destin de votre pays se joue entre les lignes… et entre vos mains.
Votre objectif est de calculer la durée moyenne. Comme vous travaillez avec des données de temps jusqu’à événement, vous devez inspecter les données pour vérifier la présence de censure.
Le package pandas est chargé sous le nom pd. Le DataFrame des durées est chargé et stocké dans regime_durations. Vous pouvez utiliser la console pour afficher les noms de colonnes du DataFrame.
Cet exercice fait partie du cours
Analyse de survie en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print first row
print(regime_durations.____)
# Count censored data
count = len(regime_durations[regime_durations[____] == ____])
# Print the count to console
print(____)