Spark, Hadoop ve Hive

Önceki videoda bir hayli açık kaynak proje gördün. Hadoop, Hive ve PySpark var. Bu projeleri birbirine karıştırmak kolay.

Ortak yönleri var: Hepsi şu anda Apache Software Foundation tarafından yönetiliyor ve hepsi devasa paralel işlemelerde kullanıldı. Farkları ayırt edebilir misin?

Bu egzersiz, kursun bir parçasıdır

Data Engineering'e Giriş

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Teoriyi etkileşime dönüştürün, interaktif egzersizlerimizden biriyle

Egzersize başla

Bu egzersiz, kursun bir parçasıdır

Data Engineering'e Giriş

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu ilk bölümde, data engineering dünyasıyla tanışacaksın! Bir data engineer ile data scientist arasındaki farkları keşfet, data engineer'ların kullandığı çeşitli araçlara genel bir bakış edin ve bulut teknolojisinin data engineering'de nasıl bir rol oynadığını daha iyi anla.

Exercise 1: Veri mühendisliği nedir?Exercise 2: Veri mühendisinin görevleri Exercise 3: Data engineer mı yoksa data scientist mi?Exercise 4: Veri mühendisliği problemleri Exercise 5: Veri mühendisinin araçları Exercise 6: Veritabanı türleri Exercise 7: İşleme görevleri Exercise 8: Zamanlama araçları Exercise 9: Bulut sağlayıcıları Exercise 10: Neden bulut bilişim?Exercise 11: Bulut bilişimde büyük oyuncular Exercise 12: Bulut hizmetleri

Artık bir data engineer ile data scientist arasındaki temel farkları bildiğine göre, data engineer'ın araç kutusunu keşfetmeye hazırsın! Data engineer'ların kullandığı farklı veritabanı türlerini detaylıca öğren, paralel hesaplamanın bu araç kutusunun temel taşı olduğunu gör ve zamanlama çatılarıyla veri işleme işlerini nasıl planlayacağını keşfet.

Exercise 1: Veritabanları Exercise 2: SQL vs NoSQL Exercise 3: Veritabanı şeması Exercise 4: İlişkiler üzerinden join Exercise 5: Yıldız şeması diyagramı Exercise 6: Paralel hesaplama nedir Exercise 7: Neden paralel hesaplama?Exercise 8: Görevden alt görevlere Exercise 9: Bir DataFrame Kullanma Exercise 10: Paralel hesaplama çerçeveleri Exercise 11: Spark, Hadoop ve Hive

Geçerli egzersiz

Exercise 12: Bir PySpark groupby işlemi Exercise 13: PySpark dosyalarını çalıştırma Exercise 14: İş akışı zamanlama çerçeveleri Exercise 15: Airflow, Luigi ve cron Exercise 16: Airflow DAG'leri

Data engineer'ların araç kutusunu gördüğüne göre, şimdi bir data engineer'ın günlük iş akışının bel kemiğine geçme zamanı! ETL ile farklı kaynaklardan ham veriyi nasıl çıkaracağını, bu ham veriyi işe yarar içgörülere dönüştürmeyi ve tüketilmeye hazır şekilde ilgili veritabanlarına yüklemeyi öğreneceksin.

Exercise 1: Extract Exercise 2: Veri kaynakları Exercise 3: Bir API'den veri çek Exercise 4: Bir veritabanından oku Exercise 5: Dönüştür Exercise 6: Kira ücretini bölme Exercise 7: Dönüşümlere hazırlan Exercise 8: Derecelendirmelerle birleştirme Exercise 9: Yükleme Exercise 10: OLAP mı OLTP mi Exercise 11: Dosyaya yazma Exercise 12: Postgres'e Yükleme Exercise 13: Hepsini bir araya getirme Exercise 14: Bir DAG Tanımlamak Exercise 15: Airflow'u kurma Exercise 16: DAG'i yorumlama

Önceki üç bölümde öğrendiklerini, DataCamp'ten gerçek bir data engineering kullanım senaryosunu tamamlayarak taçlandır! Ham kurs puanlama verisini ETL süreciyle dönüştürüp DataCamp öğrencileri için uygulanabilir kurs önerilerine çevirecek ve bu süreci zamanlayacaksın!

Exercise 1: Kurs puanları Exercise 2: Şemayı keşfetmek Exercise 3: Tabloyu sorgulama Exercise 4: Kurs başına ortalama puan Exercise 5: Puanlamalardan önerilere Exercise 6: Bozuk verileri filtrele Exercise 7: Öneri dönüştürmesini kullanma Exercise 8: Günlük işleri zamanlama Exercise 9: Hedef tablo Exercise 10: DAG'i tanımlama Exercise 11: DAG'i Etkinleştir Exercise 12: Önerileri sorgulama Exercise 13: Tebrikler