Parquet'ten Dask DataFrame'leri Okuma
- Bölümde, 2005-2020 arasındaki en popüler parçaları bulmak için birden fazla dosyaya bölünmüş bazı Spotify verilerini analiz ettin. Bunu
dask.delayed()fonksiyonunu ve bir döngüyü kullanarak yapmıştın. Şimdi bu analizin Dask DataFrame'leriyle ne kadar kolaylaştığını görelim.
dask.dataframe senin için dd olarak içe aktarıldı.
Bu egzersiz, kursun bir parçasıdır
Python ile Dask ile Paralel Programlama
Egzersiz talimatları
"data/spotify_parquet"konumundaki Parquet veri klasörünü yükle.- DataFrame'in
.nlargest()metodunu kullanarak'popularity'sütununa göre en popüler 10 şarkıyı bul. - Gecikmeli (delayed) nesneyi hesaplayarak bir pandas DataFrame'ine dönüştür.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Read the spotify_parquet folder
df = ____
# Find the 10 most popular songs
top_10_songs = ____
# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____
print(top_10_songs_df)