1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phân tích giỏ hàng trong Python

Connected

Bài tập

Chuẩn bị dữ liệu cho phân tích giỏ hàng (market basket analysis)

Trong suốt khóa học, bạn sẽ thường gặp dữ liệu ở một trong hai định dạng: pandas DataFrame hoặc danh sách các danh sách (list of lists). Các đối tượng DataFrame sẽ được tạo bằng cách import một tệp csv bằng pandas. Chúng sẽ gồm một cột dữ liệu, trong đó mỗi phần tử là một chuỗi các mặt hàng trong một giao dịch, được phân tách bằng dấu phẩy, như trong bảng dưới đây.

Trong bài tập này, bạn sẽ thực hành tải dữ liệu từ tệp csv và chuẩn bị dữ liệu để dùng dưới dạng danh sách các danh sách. Lưu ý rằng đường dẫn tới bộ dữ liệu cửa hàng tạp hóa đã được định nghĩa và có sẵn với tên groceries_path.

Transaction
'milk,bread,biscuit'
'bread,milk,biscuit,cereal'
…
'tea,milk,coffee,cereal'

Hướng dẫn

100 XP
  • Import package pandas với bí danh pd.
  • Dùng pandas để đọc tệp csv tại đường dẫn được chỉ định bởi groceries_path.
  • Chọn cột Transaction từ DataFrame và tách mỗi chuỗi các mặt hàng phân tách bằng dấu phẩy thành một danh sách.
  • Chuyển DataFrame các giao dịch thành một danh sách các danh sách.