1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý Ngôn ngữ Nói bằng Python

Connected

Bài tập

Tổ chức dữ liệu cuộc gọi đã được chuyển lời nói thành văn bản

Chúng ta sắp sẵn sàng xây dựng một bộ phân loại văn bản. Nhưng hiện tại, toàn bộ dữ liệu văn bản đã phiên âm của chúng ta đang nằm trong hai danh sách, pre_purchase_text và post_purchase_text.

Để tổ chức tốt hơn cho việc xây dựng bộ phân loại văn bản cũng như sử dụng về sau, chúng ta sẽ đưa chúng vào một pandas DataFrame.

Bắt đầu bằng cách import pandas với bí danh pd, sau đó tạo một dataframe cho giai đoạn sau mua, post_purchase_df, bằng pd.DataFrame().

Chúng ta sẽ truyền cho pd.DataFrame() một dictionary chứa khóa "label" với giá trị "post_purchase" và khóa "text" với giá trị là danh sách post_purchase_text của chúng ta.

Làm tương tự cho pre_purchase_df nhưng dùng pre_purchase_text.

Để gom toàn bộ dữ liệu vào một nơi, chúng ta sẽ dùng pd.concat() và truyền vào hai DataFrame trước và sau mua.

Hướng dẫn

100 XP
  • Tạo post_purchase_df bằng danh sách post_purchase_text.
  • Tạo pre_purchase_df bằng danh sách pre_purchase_text.
  • Gộp hai DataFrame bằng pd.concat().