Toutes les statistiques descriptives par secteur
Vous pouvez appliquer les différentes statistiques descriptives vues au chapitre précédent à un objet groupby pour obtenir des résultats par catégorie. Cela inclut la fonction .describe(), qui fournit plusieurs indicateurs en une seule fois !
Ici, vous allez vous entraîner avec les sociétés cotées au NASDAQ. pandas a été importé sous le nom pd, et les données des sociétés cotées sur le NASDAQ sont disponibles dans votre espace de travail dans le DataFrame nasdaq.
Cet exercice fait partie du cours
Importer et gérer des données financières en Python
Instructions
- Inspectez les données
nasdaqavec.info(). - Créez une nouvelle colonne
market_cap_mcontenant la capitalisation boursière en millions de dollars (USD). À la ligne suivante, supprimez la colonne'Market Capitalization'. - Regroupez vos données
nasdaqpar'Sector'et assignez le résultat ànasdaq_by_sector. - Appelez la méthode
.describe()surnasdaq_by_sector, assignez le résultat àsummary, puis affichez-le. - Cela fonctionne, mais
summaryest au format long et utilise unpd.MultiIndex()que vous avez déjà vu. Convertissezsummaryau format large en appelant.unstack().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Inspect NASDAQ data
nasdaq.____()
# Create market_cap_m
nasdaq['market_cap_m'] = ____[____].div(1e6)
# Drop the Market Capitalization column
nasdaq.drop('Market Capitalization', axis=1, inplace=True)
# Group nasdaq by Sector
nasdaq_by_sector = ____.____(____)
# Create summary statistics by sector
summary = ____.____()
# Print the summary
print(summary)
# Unstack
summary = ____.____()
# Print the summary again
print(summary)