Membuat Dask DataFrame dari CSV
Sebelumnya, Anda menganalisis data lagu Spotify menggunakan loop dan fungsi delayed. Kini Anda tahu bahwa hal yang sama dapat dilakukan dengan lebih mudah menggunakan Dask DataFrame. Mari kita lihat seberapa lebih mudah tugas yang sama yang Anda lakukan sebelumnya jika menggunakan metode ini alih-alih loop. Namun, pertama-tama Anda perlu memuat himpunan data ke dalam Dask DataFrame.
Latihan ini adalah bagian dari kursus
Pemrograman Paralel dengan Dask di Python
Petunjuk latihan
- Impor subpaket
dask.dataframesebagaidd. - Baca semua file CSV di folder
data/spotifydengan ukuran blok maksimum 1MB. - Gunakan fungsi
dd.to_datetime()untuk mengonversi string pada kolom'release_date'menjadi datetime. - Gunakan metode
.head()milik DataFrame untuk menampilkan 5 baris pertama tabel.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import dask dataframe as dd
____
# Load in the DataFrame
df = ____
# Convert the release_date column from string to datetime
____
# Show 5 rows of the DataFrame
print(____)