1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Lọc và Đếm

Biến đổi RDD filter() trả về một RDD mới chỉ chứa các phần tử thỏa mãn một hàm nhất định. Điều này hữu ích khi lọc các tập dữ liệu lớn dựa trên một từ khóa. Trong bài này, bạn sẽ lọc các dòng chứa từ khóa Spark từ RDD fileRDD, vốn gồm các dòng văn bản từ tệp README.md. Tiếp theo, bạn sẽ đếm tổng số dòng chứa từ khóa Spark và cuối cùng in ra 4 dòng đầu tiên của RDD đã lọc.

Lưu ý, bạn đã có sẵn SparkContext sc, file_path, và fileRDD trong không gian làm việc.

Hướng dẫn

100 XP
  • Tạo phép biến đổi filter() để chọn các dòng chứa từ khóa Spark.
  • Có bao nhiêu dòng trong fileRDD_filter chứa từ khóa Spark?
  • In ra bốn dòng đầu tiên của RDD kết quả.