or
Bu egzersiz, kursun bir parçasıdır
Bu bölümde Spark'ta bir SQL tablosu oluşturmayı ve sorgulamayı öğreneceksin. Spark SQL, SQL'in ifade gücünü Spark'a taşır. Ayrıca Spark'ta SQL pencere fonksiyonlarını nasıl kullanacağını da öğreneceksin. Pencere fonksiyonları, mevcut satırla ilişkili satırlar üzerinde hesaplama yapar. Yalnızca join'lar ve geleneksel toplulaştırmalarla ifade etmesi zor sonuçları büyük ölçüde basitleştirirler. Pencere fonksiyonlarını kümülatif toplamlar, ardışık farklar ve temel SQL'de gerçekleştirmesi zor diğer işlemler için kullanacağız.
Bu bölümde doğal dil metnini yükleyeceksin. Ardından, sık görülen kelime dizilerini bulmak için hareketli pencere analizi uygulayacaksın.
Önceki bölümlerde pencere fonksiyonu SQL'in ifade gücünü nasıl kullanacağını öğrendin. Ancak bu ifade gücü, veri çerçevelerini ve SQL tablolarını doğru şekilde önbelleğe almayı anlamanı artık önemli kılıyor. Uygulamanı nasıl değerlendirmen gerektiğini bilmek de önemlidir. Bunu Spark UI kullanarak nasıl yapacağını öğreneceksin. Ayrıca Spark'ta günlükleme için bir en iyi uygulamayı da öğreneceksin. Spark SQL, sorgu performansını iyileştirmeye yönelik bir başka yararlı araç getirir: sorgu yürütme planı. Yürütme planını, bir veri çerçevesinin kökenini (provenance) değerlendirmek için nasıl kullanacağını öğreneceksin.
Önceki bölümler, ham metni yüklemek, ayrıştırmak ve kelime dizileri çıkarmak için gerekli araçları sağladı. Bu, analiz için zaten çok yararlı; ayrıca Machine Learning için de kullanışlıdır. Şimdi öğrendiklerin, metni sınıflandırmak için lojistik regresyon kullanarak bir araya geliyor. Bu bölümün sonunda, ham doğal dil metin verilerini yüklemiş ve bunları bir metin sınıflandırıcıyı eğitmek için kullanmış olacaksın.
Geçerli egzersiz