5000 nokta verisini yükleme ve ayrıştırma

Kümeleme, benzerliği yüksek nesneleri kümeler halinde gruplamayı içeren gözetimsiz bir öğrenme görevidir. Verinin etiketli olduğu gözetimli görevlere kıyasla, kümeleme etiketlenmemiş veriyi anlamlandırmak için kullanılabilir. PySpark MLlib, kümeleme için popüler K-means algoritmasını içerir. Bu 3 bölümlük egzersizde, 5000 satır ve 2 sütun içeren bir veri kümesinde kaç küme olduğunu bulacaksın. Bunun için önce veriyi bir RDD'ye yükleyecek, RDD'yi ayırıcıya göre ayrıştıracak, KMeans modelini çalıştıracak, modeli değerlendirecek ve son olarak kümeleri görselleştireceksin.

İlk bölümde, veriyi RDD'ye yükleyecek, RDD'yi ayırıcıya göre ayrıştıracak ve verinin string türünü tamsayıya dönüştüreceksin.

Unutma, çalışma alanında kullanılabilir bir SparkContext sc var. Ayrıca file_path değişkeni (ki bu 5000_points.txt dosyasının yolu) çalışma alanında hazır.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

5000_points veri kümesini clusterRDD adlı bir RDD'ye yükle.
Satırları sekmeye ("\t") göre bölerek clusterRDD'yi dönüştür.
Bölünmüş RDD'yi dönüştürerek iki sütun için tamsayı listesi oluştur.
Veri kümesinde 5000 satır olduğunu doğrula.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Load the dataset into an RDD
clusterRDD = sc.____(file_path)

# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))

# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])

# Count the number of rows in RDD 
print("There are {} rows in the rdd_split_int dataset".format(____.____()))

Kodu Düzenle ve Çalıştır