Memuat dan mengurai data 5000 points
Clustering adalah tugas pembelajaran tanpa pengawasan (unsupervised) yang melibatkan pengelompokan objek ke dalam klaster dengan kemiripan tinggi. Berbeda dengan tugas terawasi (supervised), di mana data berlabel, clustering dapat digunakan untuk memahami data tanpa label. PySpark MLlib menyertakan algoritma K-means populer untuk clustering. Dalam latihan 3 bagian ini, Anda akan mencari tahu ada berapa banyak klaster dalam himpunan data yang berisi 5000 baris dan 2 kolom. Untuk itu, pertama-tama Anda akan memuat data ke dalam sebuah RDD, mengurai RDD berdasarkan pembatas (delimiter), menjalankan model KMeans, mengevaluasi model, dan akhirnya memvisualisasikan klasternya.
Pada bagian pertama, Anda akan memuat data ke dalam RDD, mengurai RDD berdasarkan pembatas, dan mengonversi tipe string pada data menjadi bilangan bulat.
Ingat, Anda memiliki SparkContext sc yang tersedia di ruang kerja Anda. Selain itu, variabel file_path (yang merupakan path ke file 5000_points.txt) sudah tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Muat himpunan data
5000_pointske dalam sebuah RDD bernamaclusterRDD. - Transformasikan
clusterRDDdengan membagi setiap baris berdasarkan tab ("\t"). - Transformasikan RDD hasil pembagian untuk membuat daftar bilangan bulat untuk dua kolomnya.
- Konfirmasikan bahwa terdapat 5000 baris dalam himpunan data tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load the dataset into an RDD
clusterRDD = sc.____(file_path)
# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))
# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])
# Count the number of rows in RDD
print("There are {} rows in the rdd_split_int dataset".format(____.____()))