Làm quen với dữ liệu văn bản

Trong bài tập này, bạn sẽ làm việc với dữ liệu văn bản bằng cách phân tích các câu thoại của Sheldon Cooper trong chương trình truyền hình The Big Bang Theory. Điều này giúp bạn có cơ hội phân tích câu để hiểu cảm giác khi xử lý dữ liệu văn bản ngoài đời thực.

Bạn sẽ sử dụng dictionary comprehension để tạo ra các từ điển ánh xạ từ mỗi từ sang chỉ số và ngược lại. Việc dùng từ điển thay vì, chẳng hạn, pandas.DataFrame là vì chúng trực quan hơn và không thêm độ phức tạp không cần thiết.

Dữ liệu có sẵn trong sheldon_quotes với hai câu đầu tiên đã được in sẵn cho bạn.

join các câu thành một biến rồi trích xuất tất cả các từ và lưu danh sách này vào all_words.
Loại bỏ các từ trùng lặp bằng cách áp dụng list(set()) lên danh sách từ và lưu vào unique_words.
Tạo một từ điển với khóa là chỉ số và giá trị là từ bằng dictionary comprehension.
Tạo một từ điển với khóa là từ và giá trị là chỉ số bằng dictionary comprehension.

Bài tập

Làm quen với dữ liệu văn bản

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập