Derecelendirmelerle birleştirme

Video egzersizinde, film ve ratings tablolarını birleştirip müşteri başına ortalama puanı saklayan yeni bir sütun oluşturmak için PySpark dönüşümlerini nasıl kullanacağını gördün. Bu egzersizde, video egzersizinde öğrendiğin aynı teknikleri kullanarak her film için ortalama puanı hesaplayarak film ve ratings tabloları arasında daha fazla sinerji oluşturacaksın.

Filmleri içeren PySpark DataFrame'i film_df ve derecelendirmeleri içeren PySpark DataFrame'i rating_df çalışma alanında mevcut.

Bu egzersiz, kursun bir parçasıdır

Data Engineering'e Giriş

Kursa Göz Atın

Egzersiz talimatları

film_id başına ortalama puanı al ve sonucu ratings_per_film_df değişkenine ata.
.join() ifadesini film_id sütununda birleştirme yapacak şekilde tamamla.
Ortaya çıkan DataFrame'in ilk 5 sonucunu göster.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Use groupBy and mean to aggregate the column
ratings_per_film_df = rating_df.____('____').____('____')

# Join the tables using the film_id column
film_df_with_ratings = film_df.join(
    ratings_per_film_df,
    film_df.film_id==____
)

# Show the 5 first results
print(film_df_with_ratings.____)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Data Engineering'e Giriş

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu ilk bölümde, data engineering dünyasıyla tanışacaksın! Bir data engineer ile data scientist arasındaki farkları keşfet, data engineer'ların kullandığı çeşitli araçlara genel bir bakış edin ve bulut teknolojisinin data engineering'de nasıl bir rol oynadığını daha iyi anla.

Exercise 1: Veri mühendisliği nedir?Exercise 2: Veri mühendisinin görevleri Exercise 3: Data engineer mı yoksa data scientist mi?Exercise 4: Veri mühendisliği problemleri Exercise 5: Veri mühendisinin araçları Exercise 6: Veritabanı türleri Exercise 7: İşleme görevleri Exercise 8: Zamanlama araçları Exercise 9: Bulut sağlayıcıları Exercise 10: Neden bulut bilişim?Exercise 11: Bulut bilişimde büyük oyuncular Exercise 12: Bulut hizmetleri

Artık bir data engineer ile data scientist arasındaki temel farkları bildiğine göre, data engineer'ın araç kutusunu keşfetmeye hazırsın! Data engineer'ların kullandığı farklı veritabanı türlerini detaylıca öğren, paralel hesaplamanın bu araç kutusunun temel taşı olduğunu gör ve zamanlama çatılarıyla veri işleme işlerini nasıl planlayacağını keşfet.

Exercise 1: Veritabanları Exercise 2: SQL vs NoSQL Exercise 3: Veritabanı şeması Exercise 4: İlişkiler üzerinden join Exercise 5: Yıldız şeması diyagramı Exercise 6: Paralel hesaplama nedir Exercise 7: Neden paralel hesaplama?Exercise 8: Görevden alt görevlere Exercise 9: Bir DataFrame Kullanma Exercise 10: Paralel hesaplama çerçeveleri Exercise 11: Spark, Hadoop ve Hive Exercise 12: Bir PySpark groupby işlemi Exercise 13: PySpark dosyalarını çalıştırma Exercise 14: İş akışı zamanlama çerçeveleri Exercise 15: Airflow, Luigi ve cron Exercise 16: Airflow DAG'leri

Data engineer'ların araç kutusunu gördüğüne göre, şimdi bir data engineer'ın günlük iş akışının bel kemiğine geçme zamanı! ETL ile farklı kaynaklardan ham veriyi nasıl çıkaracağını, bu ham veriyi işe yarar içgörülere dönüştürmeyi ve tüketilmeye hazır şekilde ilgili veritabanlarına yüklemeyi öğreneceksin.

Exercise 1: Extract Exercise 2: Veri kaynakları Exercise 3: Bir API'den veri çek Exercise 4: Bir veritabanından oku Exercise 5: Dönüştür Exercise 6: Kira ücretini bölme Exercise 7: Dönüşümlere hazırlan Exercise 8: Derecelendirmelerle birleştirme

Geçerli egzersiz

Exercise 9: Yükleme Exercise 10: OLAP mı OLTP mi Exercise 11: Dosyaya yazma Exercise 12: Postgres'e Yükleme Exercise 13: Hepsini bir araya getirme Exercise 14: Bir DAG Tanımlamak Exercise 15: Airflow'u kurma Exercise 16: DAG'i yorumlama

Önceki üç bölümde öğrendiklerini, DataCamp'ten gerçek bir data engineering kullanım senaryosunu tamamlayarak taçlandır! Ham kurs puanlama verisini ETL süreciyle dönüştürüp DataCamp öğrencileri için uygulanabilir kurs önerilerine çevirecek ve bu süreci zamanlayacaksın!

Exercise 1: Kurs puanları Exercise 2: Şemayı keşfetmek Exercise 3: Tabloyu sorgulama Exercise 4: Kurs başına ortalama puan Exercise 5: Puanlamalardan önerilere Exercise 6: Bozuk verileri filtrele Exercise 7: Öneri dönüştürmesini kullanma Exercise 8: Günlük işleri zamanlama Exercise 9: Hedef tablo Exercise 10: DAG'i tanımlama Exercise 11: DAG'i Etkinleştir Exercise 12: Önerileri sorgulama Exercise 13: Tebrikler