Utiliser pandas pour importer des fichiers plats en tant que DataFrame (2)
Dans le dernier exercice, vous avez pu importer des fichiers plats
dans un DataFrame pandas
. En prime, il est alors facile de
récupérer le
tableau numpy
à l'aide de la méthode .to_numpy()
. Vous avez maintenant l’occasion
de le faire, en utilisant l'ensemble de données MNIST, disponible au format digits.csv
.
La fonction pd.read_csv()
accepte plusieurs arguments qui seront utiles pour cet exercice :
nrows
permet de spécifier le nombre de lignes à lire dans le fichier. Par exemple,nrows=10
n'importera que les 10 premières lignes.header
accepte les numéros de ligne à utiliser comme étiquettes de colonne et marque le début des données. Si le fichier ne contient pas de ligne d'en-tête, vous pouvez définirheader=None
, etpandas
attribuera automatiquement des étiquettes de colonne entières à partir de 0 (par exemple, 0, 1, 2, …).
Cet exercice fait partie du cours
Introduction à l'importation de données en Python
Instructions
- Importez les 5 premières lignes du fichier dans un DataFrame à l'aide de la fonction
pd.read_csv()
et affectez le résultat àdata
. Vous devrez utiliser les argumentsnrows
etheader
. Notez qu'il n'y a pas de ligne d'en-tête dans ce fichier. - Construisez un tableau
numpy
à partir du DataFrame résultant dansdata
et affectez-le àdata_array
. - Exécutez
print(type(data_array))
pour afficher le type de données dedata_array
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))