Membaca Dask DataFrame dari Parquet
Pada Bab 1, Anda menganalisis beberapa data Spotify yang dibagi ke dalam banyak berkas untuk menemukan lagu teratas tahun 2005–2020. Anda melakukannya dengan fungsi dask.delayed() dan sebuah loop. Sekarang, mari lihat betapa lebih mudahnya analisis ini jika menggunakan Dask DataFrame.
dask.dataframe telah diimpor untuk Anda sebagai dd.
Latihan ini adalah bagian dari kursus
Pemrograman Paralel dengan Dask di Python
Petunjuk latihan
- Muat folder data Parquet yang berada di
"data/spotify_parquet". - Gunakan metode
.nlargest()milik DataFrame untuk menemukan 10 lagu teratas berdasarkan'popularity'. - Ubah objek delayed menjadi DataFrame pandas dengan menghitungnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Read the spotify_parquet folder
df = ____
# Find the 10 most popular songs
top_10_songs = ____
# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____
print(top_10_songs_df)