1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập dữ liệu nâng cao trong Python

Connected

Bài tập

Phân tích văn bản Twitter đơn giản

Giờ bạn đã có DataFrame chứa các tweet, bạn sẽ làm một chút phân tích văn bản để đếm có bao nhiêu tweet chứa các từ 'clinton', 'trump', 'sanders' và 'cruz'. Trong phần mã trước Bài tập, chúng tôi đã định nghĩa hàm word_in_text() sau, hàm này sẽ cho biết đối số thứ nhất (một từ) có xuất hiện trong đối số thứ hai (một tweet) hay không.

import re

def word_in_text(word, text):
    word = word.lower()
    text = text.lower()
    match = re.search(word, text)

    if match:
        return True
    return False

Bạn sẽ lặp qua các hàng của DataFrame và tính xem có bao nhiêu tweet chứa mỗi từ khóa của chúng ta! Danh sách các biến đếm cho từng ứng viên đã được khởi tạo bằng 0.

Hướng dẫn

100 XP
  • Trong vòng lặp for for index, row in df.iterrows():, đoạn mã hiện tại tăng giá trị của clinton lên 1 mỗi khi gặp một tweet (hàng văn bản) có nhắc đến 'Clinton'; hãy hoàn thiện mã để điều tương tự xảy ra với trump, sanders và cruz.