1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Tạo một RDD gốc và biến đổi nó

Khối lượng dữ liệu phi cấu trúc (dòng log, hình ảnh, tệp nhị phân) đang tăng mạnh, và PySpark là một khung tuyệt vời để phân tích loại dữ liệu này thông qua RDD. Trong bài tập gồm 3 phần này, bạn sẽ viết mã để tính các từ xuất hiện nhiều nhất từ Complete Works of William Shakespeare.

Dưới đây là các bước ngắn gọn để viết chương trình đếm từ:

  • Tạo một RDD gốc từ tệp Complete_Shakespeare.txt.
  • Dùng RDD transformation để tạo một danh sách dài các từ từ mỗi phần tử của RDD gốc.
  • Loại bỏ stop words khỏi dữ liệu của bạn.
  • Tạo pair RDD trong đó mỗi phần tử là một cặp tuple ('w', 1)
  • Nhóm các phần tử của pair RDD theo khóa (từ) và cộng các giá trị của chúng.
  • Hoán đổi khóa (từ) và giá trị (số đếm) để khóa là số đếm và giá trị là từ.
  • Cuối cùng, sắp xếp RDD theo thứ tự giảm dần và in ra 10 từ xuất hiện nhiều nhất cùng tần suất của chúng.

Trong bài tập đầu tiên này, bạn sẽ tạo một RDD gốc từ tệp Complete_Shakespeare.txt và biến đổi nó để tạo một danh sách dài các từ.

Hãy nhớ, bạn đã có sẵn SparkContext sc trong không gian làm việc. Biến file_path (đường dẫn đến tệp Complete_Shakespeare.txt) cũng đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Tạo một RDD tên baseRDD đọc các dòng từ file_path.
  • Biến đổi baseRDD thành một danh sách dài các từ và tạo một splitRDD mới.
  • Đếm tổng số từ trong splitRDD.