Correlaties tussen meerdere tijdreeksen
In de vorige oefening heb je de seasonal-component van elke tijdreeks in de DataFrame jobs geëxtraheerd en die resultaten opgeslagen in een nieuwe DataFrame, seasonality_df. In de context van arbeidsmarktdata is het interessant om seizoenspatronen te vergelijken, omdat dit kan helpen te ontdekken welke sectoren het meest op elkaar lijken of juist het meest verschillen.
Dit kun je doen met de DataFrame seasonality_df door de correlatie te berekenen tussen elke tijdreeks in de gegevensset. In deze oefening pas je toe wat je in Hoofdstuk 4 hebt geleerd om de correlaties tussen tijdreeksen in seasonality_df te berekenen en een clustermapvisualisatie te maken.
Deze oefening maakt deel uit van de cursus
Tijdreeksen visualiseren in Python
Oefeninstructies
- Bereken de correlatie tussen alle kolommen in de DataFrame
seasonality_dfmet de methode spearman en wijs de resultaten toe aanseasonality_corr. - Maak een nieuwe clustermap van je correlatiematrix.
- Print de correlatiewaarde tussen de seizoenspatronen van de sectoren Government en Education & Health.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Get correlation matrix of the seasonality_df DataFrame
seasonality_corr = ____
# Customize the clustermap of the seasonality_corr correlation matrix
fig = ____(____, annot=True, annot_kws={"size": 4}, linewidths=.4, figsize=(15, 10))
plt.setp(fig.ax_heatmap.yaxis.get_majorticklabels(), rotation=0)
plt.setp(fig.ax_heatmap.xaxis.get_majorticklabels(), rotation=90)
plt.show()
# Print the correlation between the seasonalities of the Government and Education & Health industries
print(____)