Utiliser pandas pour importer des fichiers plats en tant que DataFrame (2)

Dans le dernier exercice, vous avez pu importer des fichiers plats dans un DataFrame pandas. En prime, il est alors facile de récupérer le tableau numpy à l'aide de la méthode .to_numpy(). Vous avez maintenant l’occasion de le faire, en utilisant l'ensemble de données MNIST, disponible au format digits.csv.

La fonction pd.read_csv() accepte plusieurs arguments qui seront utiles pour cet exercice :

nrows permet de spécifier le nombre de lignes à lire dans le fichier. Par exemple, nrows=10 n'importera que les 10 premières lignes.
header accepte les numéros de ligne à utiliser comme étiquettes de colonne et marque le début des données. Si le fichier ne contient pas de ligne d'en-tête, vous pouvez définir header=None, et pandas attribuera automatiquement des étiquettes de colonne entières à partir de 0 (par exemple, 0, 1, 2, …).

Cet exercice fait partie du cours

<cours>Introduction à l'importation de données en Python</cours>

Voir le cours

Instructions de l’exercice

Importez les 5 premières lignes du fichier dans un DataFrame à l'aide de la fonction pd.read_csv() et affectez le résultat à data. Vous devrez utiliser les arguments nrows et header. Notez qu'il n'y a pas de ligne d'en-tête dans ce fichier.
Construisez un tableau numpy à partir du DataFrame résultant dans data et affectez-le à data_array.
Exécutez print(type(data_array)) pour afficher le type de données de data_array.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Assign the filename: file
file = 'digits.csv'

# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)

# Build a numpy array from the DataFrame: data_array
data_array = ____

# Print the datatype of data_array to the shell
print(type(data_array))

Modifier et exécuter le code