MulaiMulai sekarang secara gratis

Membaca Dask DataFrame dari Parquet

Pada Bab 1, Anda menganalisis beberapa data Spotify yang dibagi ke dalam banyak berkas untuk menemukan lagu teratas tahun 2005–2020. Anda melakukannya dengan fungsi dask.delayed() dan sebuah loop. Sekarang, mari lihat betapa lebih mudahnya analisis ini jika menggunakan Dask DataFrame.

dask.dataframe telah diimpor untuk Anda sebagai dd.

Latihan ini adalah bagian dari kursus

Pemrograman Paralel dengan Dask di Python

Lihat Kursus

Petunjuk latihan

  • Muat folder data Parquet yang berada di "data/spotify_parquet".
  • Gunakan metode .nlargest() milik DataFrame untuk menemukan 10 lagu teratas berdasarkan 'popularity'.
  • Ubah objek delayed menjadi DataFrame pandas dengan menghitungnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)
Edit dan Jalankan Kode