5000 nokta verisini yükleme ve ayrıştırma
Kümeleme, benzerliği yüksek nesneleri kümeler halinde gruplamayı içeren gözetimsiz bir öğrenme görevidir. Verinin etiketli olduğu gözetimli görevlere kıyasla, kümeleme etiketlenmemiş veriyi anlamlandırmak için kullanılabilir. PySpark MLlib, kümeleme için popüler K-means algoritmasını içerir. Bu 3 bölümlük egzersizde, 5000 satır ve 2 sütun içeren bir veri kümesinde kaç küme olduğunu bulacaksın. Bunun için önce veriyi bir RDD'ye yükleyecek, RDD'yi ayırıcıya göre ayrıştıracak, KMeans modelini çalıştıracak, modeli değerlendirecek ve son olarak kümeleri görselleştireceksin.
İlk bölümde, veriyi RDD'ye yükleyecek, RDD'yi ayırıcıya göre ayrıştıracak ve verinin string türünü tamsayıya dönüştüreceksin.
Unutma, çalışma alanında kullanılabilir bir SparkContext sc var. Ayrıca file_path değişkeni (ki bu 5000_points.txt dosyasının yolu) çalışma alanında hazır.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
5000_pointsveri kümesiniclusterRDDadlı bir RDD'ye yükle.- Satırları sekmeye ("\t") göre bölerek
clusterRDD'yi dönüştür. - Bölünmüş RDD'yi dönüştürerek iki sütun için tamsayı listesi oluştur.
- Veri kümesinde 5000 satır olduğunu doğrula.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load the dataset into an RDD
clusterRDD = sc.____(file_path)
# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))
# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])
# Count the number of rows in RDD
print("There are {} rows in the rdd_split_int dataset".format(____.____()))