Memuat dan mengurai data 5000 points

Clustering adalah tugas pembelajaran tanpa pengawasan (unsupervised) yang melibatkan pengelompokan objek ke dalam klaster dengan kemiripan tinggi. Berbeda dengan tugas terawasi (supervised), di mana data berlabel, clustering dapat digunakan untuk memahami data tanpa label. PySpark MLlib menyertakan algoritma K-means populer untuk clustering. Dalam latihan 3 bagian ini, Anda akan mencari tahu ada berapa banyak klaster dalam himpunan data yang berisi 5000 baris dan 2 kolom. Untuk itu, pertama-tama Anda akan memuat data ke dalam sebuah RDD, mengurai RDD berdasarkan pembatas (delimiter), menjalankan model KMeans, mengevaluasi model, dan akhirnya memvisualisasikan klasternya.

Pada bagian pertama, Anda akan memuat data ke dalam RDD, mengurai RDD berdasarkan pembatas, dan mengonversi tipe string pada data menjadi bilangan bulat.

Ingat, Anda memiliki SparkContext sc yang tersedia di ruang kerja Anda. Selain itu, variabel file_path (yang merupakan path ke file 5000_points.txt) sudah tersedia di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

Muat himpunan data 5000_points ke dalam sebuah RDD bernama clusterRDD.
Transformasikan clusterRDD dengan membagi setiap baris berdasarkan tab ("\t").
Transformasikan RDD hasil pembagian untuk membuat daftar bilangan bulat untuk dua kolomnya.
Konfirmasikan bahwa terdapat 5000 baris dalam himpunan data tersebut.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load the dataset into an RDD
clusterRDD = sc.____(file_path)

# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))

# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])

# Count the number of rows in RDD 
print("There are {} rows in the rdd_split_int dataset".format(____.____()))

Edit dan Jalankan Kode