1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Spark SQL bằng Python

Connected

Bài tập

Tải một dataframe từ tệp parquet

Một tệp dataframe tên là sherlock_sentences.parquet có sẵn trong workspace của bạn. Mỗi hàng của dataframe này chứa một mệnh đề. Mỗi mệnh đề là một chuỗi từ được tách khỏi các mệnh đề khác bằng dấu câu, như dấu chấm, dấu ngoặc kép và các dấu phân tách ngôn ngữ tự nhiên khác biểu thị một câu hoặc một mảnh câu. Nhiệm vụ của bạn là tải tệp này.

Hướng dẫn

100 XP
  • Tải sherlock_sentences.parquet.
  • Lọc với "id > 70", và hiển thị 5 hàng đầu tiên.