Charger une partie d'une feuille de calcul
Les feuilles de calcul destinées à la lecture humaine contiennent souvent plusieurs tableaux. Par exemple, une petite entreprise peut maintenir un classeur d'inventaire avec des tableaux pour différents types de produits sur une seule feuille. Même des données tabulaires peuvent avoir des lignes d’en-tête avec des métadonnées, comme c’est le cas pour les données du New Developer Survey ici. Ces métadonnées sont utiles, mais nous ne les voulons pas dans un dataframe. Vous allez utiliser le paramètre skiprows de read_excel() pour récupérer uniquement les données. Vous créerez aussi une chaîne à passer à usecols afin d’obtenir seulement les colonnes AD et AW à BA, à propos des objectifs professionnels futurs.
pandas a été importé sous le nom pd.
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Instructions
- Créez une chaîne unique,
col_string, indiquant àpandasde charger la colonneADet la plage deAWàBA. - Chargez
fcc_survey_headers.xlsx', en définissantskiprowsetusecolspour ignorer les deux premières lignes de métadonnées et récupérer uniquement les colonnes decol_string. - Affichez les noms des colonnes sélectionnées dans le dataframe obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create string of lettered columns to load
col_string = ____
# Load data with skiprows and usecols set
survey_responses = ____("fcc_survey_headers.xlsx",
____,
____)
# View the names of the columns selected
print(survey_responses.columns)