Sedikit analisis teks Twitter

Sekarang setelah Anda menyiapkan DataFrame berisi tweet, Anda akan melakukan sedikit analisis teks untuk menghitung berapa banyak tweet yang memuat kata 'clinton', 'trump', 'sanders', dan 'cruz'. Pada kode pra-latihan, kami telah mendefinisikan fungsi berikut word_in_text() yang akan memberi tahu Anda apakah argumen pertama (sebuah kata) muncul di dalam argumen kedua (sebuah tweet).

import re

def word_in_text(word, text):
    word = word.lower()
    text = text.lower()
    match = re.search(word, text)

    if match:
        return True
    return False

Anda akan melakukan iterasi pada baris-baris DataFrame dan menghitung berapa banyak tweet yang memuat masing-masing kata kunci kita! Daftar objek untuk setiap kandidat telah diinisialisasi ke 0.

Latihan ini adalah bagian dari kursus

Mengimpor Data Tingkat Menengah di Python

Lihat Kursus

Petunjuk latihan

Di dalam loop for for index, row in df.iterrows():, kode saat ini menambah nilai clinton sebesar 1 setiap kali sebuah tweet (baris teks) yang menyebut 'Clinton' ditemukan; lengkapi kodenya agar hal yang sama terjadi untuk trump, sanders, dan cruz.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]

# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
    clinton += word_in_text('clinton', row['text'])
    trump += word_in_text(____, ____)
    sanders += word_in_text(____, ____)
    cruz += word_in_text(____, ____)

Edit dan Jalankan Kode