1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Tải và phân tích dữ liệu 5000 điểm

Clustering là một tác vụ học không giám sát, dùng để nhóm các đối tượng vào những cụm có mức độ tương đồng cao. Khác với các tác vụ có giám sát (dữ liệu có nhãn), clustering giúp bạn hiểu dữ liệu không có nhãn. PySpark MLlib có thuật toán K-means phổ biến cho clustering. Trong bài tập gồm 3 phần này, bạn sẽ tìm xem có bao nhiêu cụm trong một tập dữ liệu gồm 5000 hàng và 2 cột. Bạn sẽ lần lượt tải dữ liệu vào một RDD, phân tách RDD theo ký tự phân cách, chạy mô hình KMeans, đánh giá mô hình và cuối cùng trực quan hóa các cụm.

Trong phần đầu, bạn sẽ tải dữ liệu vào RDD, phân tách RDD theo ký tự phân cách và chuyển kiểu dữ liệu chuỗi thành số nguyên.

Lưu ý: bạn đã có SparkContext sc trong không gian làm việc. Biến file_path (đường dẫn đến tệp 5000_points.txt) cũng đã sẵn có trong không gian làm việc.

Hướng dẫn

100 XP
  • Tải tập dữ liệu 5000_points vào một RDD tên clusterRDD.
  • Biến đổi clusterRDD bằng cách tách các dòng theo tab ("\t").
  • Biến đổi RDD đã tách để tạo danh sách số nguyên cho hai cột.
  • Xác nhận rằng tập dữ liệu có 5000 hàng.