BaşlayınÜcretsiz Başlayın

Parquet'ten Dask DataFrame'leri Okuma

  1. Bölümde, 2005-2020 arasındaki en popüler parçaları bulmak için birden fazla dosyaya bölünmüş bazı Spotify verilerini analiz ettin. Bunu dask.delayed() fonksiyonunu ve bir döngüyü kullanarak yapmıştın. Şimdi bu analizin Dask DataFrame'leriyle ne kadar kolaylaştığını görelim.

dask.dataframe senin için dd olarak içe aktarıldı.

Bu egzersiz

Python ile Dask ile Paralel Programlama

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • "data/spotify_parquet" konumundaki Parquet veri klasörünü yükle.
  • DataFrame'in .nlargest() metodunu kullanarak 'popularity' sütununa göre en popüler 10 şarkıyı bul.
  • Gecikmeli (delayed) nesneyi hesaplayarak bir pandas DataFrame'ine dönüştür.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)
Kodu Düzenle ve Çalıştır