Charger une partie d'une feuille de calcul

Les feuilles de calcul destinées à la lecture humaine contiennent souvent plusieurs tableaux. Par exemple, une petite entreprise peut maintenir un classeur d'inventaire avec des tableaux pour différents types de produits sur une seule feuille. Même des données tabulaires peuvent avoir des lignes d’en-tête avec des métadonnées, comme c’est le cas pour les données du New Developer Survey ici. Ces métadonnées sont utiles, mais nous ne les voulons pas dans un dataframe. Vous allez utiliser le paramètre skiprows de read_excel() pour récupérer uniquement les données. Vous créerez aussi une chaîne à passer à usecols afin d’obtenir seulement les colonnes AD et AW à BA, à propos des objectifs professionnels futurs.

pandas a été importé sous le nom pd.

Cet exercice fait partie du cours

<cours>Ingestion de données simplifiée avec pandas</cours>

Voir le cours

Instructions de l’exercice

Créez une chaîne unique, col_string, indiquant à pandas de charger la colonne AD et la plage de AW à BA.
Chargez fcc_survey_headers.xlsx', en définissant skiprows et usecols pour ignorer les deux premières lignes de métadonnées et récupérer uniquement les colonnes de col_string.
Affichez les noms des colonnes sélectionnées dans le dataframe obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create string of lettered columns to load
col_string = ____

# Load data with skiprows and usecols set
survey_responses = ____("fcc_survey_headers.xlsx", 
                        ____, 
                        ____)

# View the names of the columns selected
print(survey_responses.columns)

Modifier et exécuter le code