1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Nạp CSV vào DataFrame

Ở bài trước, bạn đã thấy một cách tạo DataFrame từ một RDD. Nói chung, nạp dữ liệu từ tệp CSV là cách phổ biến nhất để tạo DataFrame. Trong bài này, bạn sẽ tạo một PySpark DataFrame từ tệp people.csv đã được cung cấp sẵn qua biến file_path và xác nhận đối tượng tạo ra là một PySpark DataFrame.

Lưu ý, bạn đã có sẵn SparkSession spark và biến file_path (đường dẫn tới tệp people.csv) trong không gian làm việc của bạn.

Hướng dẫn

100 XP
  • Tạo một DataFrame từ biến file_path, là đường dẫn đến tệp people.csv.
  • Xác nhận đầu ra là một PySpark DataFrame.