Parquet'ten Dask DataFrame'leri Okuma

Bölümde, 2005-2020 arasındaki en popüler parçaları bulmak için birden fazla dosyaya bölünmüş bazı Spotify verilerini analiz ettin. Bunu dask.delayed() fonksiyonunu ve bir döngüyü kullanarak yapmıştın. Şimdi bu analizin Dask DataFrame'leriyle ne kadar kolaylaştığını görelim.

dask.dataframe senin için dd olarak içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır

Python ile Dask ile Paralel Programlama

Kursa Göz Atın

Egzersiz talimatları

"data/spotify_parquet" konumundaki Parquet veri klasörünü yükle.
DataFrame'in .nlargest() metodunu kullanarak 'popularity' sütununa göre en popüler 10 şarkıyı bul.
Gecikmeli (delayed) nesneyi hesaplayarak bir pandas DataFrame'ine dönüştür.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)

Kodu Düzenle ve Çalıştır