Nettoyage des données : valeurs manquantes
Lorsque vous affichez la longueur du DataFrame intraday, vous remarquerez que quelques lignes sont manquantes. Il peut y avoir des données manquantes s’il n’y a aucune transaction dans un intervalle d’une minute donné. Une façon d’identifier les lignes manquantes consiste à prendre la différence entre deux ensembles : l’ensemble complet de toutes les minutes et l’ensemble de l’index du DataFrame, qui révèle les lignes absentes. Après avoir comblé ces lignes, vous pouvez convertir l’index en heures de la journée, puis tracer les données.
Les actions se négocient par incréments discrets d’un centime (même si un faible pourcentage d’échanges se fait entre ces incréments) et non à des prix continus. En traçant les données, vous devriez observer de longues périodes où le cours oscille d’avant en arrière dans une fourchette d’un centime. On parle parfois de « bid/ask bounce » (aller‑retour prix acheteur/vendeur).
Cet exercice fait partie du cours
Analyse des séries temporelles en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Notice that some rows are missing
print("If there were no missing rows, there would be 391 rows of minute data")
print("The actual length of the DataFrame is:", len(___))