1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Tìm các chuỗi từ phổ biến

Trước đó, bạn đã thấy cách tạo một truy vấn để tìm các chuỗi từ độ dài ba ("3-tuple"). Chúng ta đã dùng truy vấn đó làm truy vấn con trong một truy vấn SQL truyền thống để tìm các 3-tuple phổ biến nhất trong tài liệu văn bản. Bây giờ bạn sẽ thực hiện nhiệm vụ tương tự để tìm các 5-tuple phổ biến nhất.

DataFrame text_df đã được cung cấp. Nó chứa năm chương đầu tiên của văn bản Sherlock Holmes. Nó có các cột: word, id, part, title. Cột id là số nguyên sao cho từ xuất hiện muộn hơn trong tài liệu sẽ có id lớn hơn từ xuất hiện trước đó. Cột part tách dữ liệu theo từng chương. DataFrame text_df cũng đã được đăng ký dưới dạng bảng tạm tên là text. Mục tiêu của chúng ta là tạo một tập dữ liệu trong đó mỗi hàng tương ứng với một 5-tuple, có một count cho biết tuple đó xuất hiện bao nhiêu lần trong tập dữ liệu.

Hướng dẫn

100 XP
  • Tạo một truy vấn query để tìm 10 5-tuple phổ biến nhất trong tập dữ liệu.