Travailler avec plusieurs feuilles de calcul
Les classeurs pensés d’abord pour des lecteurs humains, et non pour des machines, peuvent stocker des données sur un même sujet dans plusieurs feuilles. Par exemple, un fichier peut contenir une feuille de transactions différente pour chaque région ou chaque année d’activité d’une entreprise.
Le fichier FreeCodeCamp New Developer Survey est organisé de façon similaire, avec des échantillons de réponses de différentes années dans des feuilles distinctes. Votre objectif ici est de les rassembler dans un seul dataframe pour l’analyse.
pandas a été importé sous le nom pd. Toutes les feuilles ont été lues dans le dictionnaire ordonné responses, où les noms des feuilles sont les clés et les dataframes les valeurs ; vous pouvez donc récupérer les dataframes avec la méthode values().
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Instructions
- Créez un dataframe vide,
all_responses. - Mettez en place une boucle
forpour itérer sur les valeurs du dictionnaireresponses. - Concaténez chaque dataframe à
all_responseset réaffectez le résultat à la même variable.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create an empty dataframe
all_responses = ____
# Set up for loop to iterate through values in responses
for df in ____:
# Print the number of rows being added
print("Adding {} rows".format(df.shape[0]))
# Concatenate all_responses and df, assign result
all_responses = pd.concat(____)
# Graph employment statuses in sample
counts = all_responses.groupby("EmploymentStatus").EmploymentStatus.count()
counts.plot.barh()
plt.show()