Utiliser pandas pour importer des fichiers plats en tant que DataFrame (2)
Dans le dernier exercice, vous avez pu importer des fichiers plats
dans un DataFrame pandas. En prime, il est alors facile de
récupérer le
tableau numpy à l'aide de la méthode .to_numpy(). Vous avez maintenant l’occasion
de le faire, en utilisant l'ensemble de données MNIST, disponible au format digits.csv.
La fonction pd.read_csv() accepte plusieurs arguments qui seront utiles pour cet exercice :
nrowspermet de spécifier le nombre de lignes à lire dans le fichier. Par exemple,nrows=10n'importera que les 10 premières lignes.headeraccepte les numéros de ligne à utiliser comme étiquettes de colonne et marque le début des données. Si le fichier ne contient pas de ligne d'en-tête, vous pouvez définirheader=None, etpandasattribuera automatiquement des étiquettes de colonne entières à partir de 0 (par exemple, 0, 1, 2, …).
Cet exercice fait partie du cours
Introduction à l'importation de données en Python
Instructions
- Importez les 5 premières lignes du fichier dans un DataFrame à l'aide de la fonction
pd.read_csv()et affectez le résultat àdata. Vous devrez utiliser les argumentsnrowsetheader. Notez qu'il n'y a pas de ligne d'en-tête dans ce fichier. - Construisez un tableau
numpyà partir du DataFrame résultant dansdataet affectez-le àdata_array. - Exécutez
print(type(data_array))pour afficher le type de données dedata_array.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))