Menggunakan pandas untuk mengimpor flat file sebagai DataFrame (2)
Pada latihan sebelumnya, Anda telah berhasil mengimpor flat file ke dalam DataFrame pandas. Sebagai bonus, Anda kemudian dapat dengan mudah mengambil numpy array yang sesuai menggunakan metode .to_numpy(). Sekarang Anda berkesempatan melakukannya menggunakan himpunan data MNIST, yang tersedia sebagai digits.csv.
Ada sejumlah argumen yang diterima pd.read_csv() yang akan berguna untuk latihan ini:
nrowsmemungkinkan Anda menentukan berapa banyak baris yang akan dibaca dari file. Sebagai contoh,nrows=10hanya akan mengimpor 10 baris pertama.headermenerima nomor baris yang digunakan sebagai label kolom dan menandai awal data. Jika file tidak memiliki baris header, Anda dapat mengaturheader=None, danpandasakan secara otomatis memberikan label kolom berupa bilangan bulat mulai dari 0 (misalnya, 0, 1, 2, …).
Latihan ini adalah bagian dari kursus
Pengantar Mengimpor Data di Python
Petunjuk latihan
- Impor 5 baris pertama dari file ke dalam sebuah DataFrame menggunakan fungsi
pd.read_csv()dan tetapkan hasilnya kedata. Anda perlu menggunakan argumennrowsdanheader. Perhatikan bahwa tidak ada baris header pada file ini. - Bangun sebuah array
numpydari DataFrame hasil didatadan tetapkan kedata_array. - Jalankan
print(type(data_array))untuk mencetak tipe datadata_array.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Assign the filename: file
file = 'digits.csv'
# Read the first 5 rows of the file into a DataFrame: data
data = ____(____, ____, ____)
# Build a numpy array from the DataFrame: data_array
data_array = ____
# Print the datatype of data_array to the shell
print(type(data_array))