Parquet'ten Dask DataFrame'leri Okuma
- Bölümde, 2005-2020 arasındaki en popüler parçaları bulmak için birden fazla dosyaya bölünmüş bazı Spotify verilerini analiz ettin. Bunu
dask.delayed()fonksiyonunu ve bir döngüyü kullanarak yapmıştın. Şimdi bu analizin Dask DataFrame'leriyle ne kadar kolaylaştığını görelim.
dask.dataframe senin için dd olarak içe aktarıldı.
Bu egzersiz
Python ile Dask ile Paralel Programlama
kursunun bir parçasıdırEgzersiz talimatları
"data/spotify_parquet"konumundaki Parquet veri klasörünü yükle.- DataFrame'in
.nlargest()metodunu kullanarak'popularity'sütununa göre en popüler 10 şarkıyı bul. - Gecikmeli (delayed) nesneyi hesaplayarak bir pandas DataFrame'ine dönüştür.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Read the spotify_parquet folder
df = ____
# Find the 10 most popular songs
top_10_songs = ____
# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____
print(top_10_songs_df)