Sedikit analisis teks Twitter
Sekarang setelah Anda menyiapkan DataFrame berisi tweet, Anda akan melakukan sedikit analisis teks untuk menghitung berapa banyak tweet yang memuat kata 'clinton', 'trump', 'sanders', dan 'cruz'. Pada kode pra-latihan, kami telah mendefinisikan fungsi berikut word_in_text() yang akan memberi tahu Anda apakah argumen pertama (sebuah kata) muncul di dalam argumen kedua (sebuah tweet).
import re
def word_in_text(word, text):
word = word.lower()
text = text.lower()
match = re.search(word, text)
if match:
return True
return False
Anda akan melakukan iterasi pada baris-baris DataFrame dan menghitung berapa banyak tweet yang memuat masing-masing kata kunci kita! Daftar objek untuk setiap kandidat telah diinisialisasi ke 0.
Latihan ini adalah bagian dari kursus
Mengimpor Data Tingkat Menengah di Python
Petunjuk latihan
- Di dalam loop
forfor index, row in df.iterrows():, kode saat ini menambah nilaiclintonsebesar1setiap kali sebuah tweet (baris teks) yang menyebut 'Clinton' ditemukan; lengkapi kodenya agar hal yang sama terjadi untuktrump,sanders, dancruz.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Initialize list to store tweet counts
[clinton, trump, sanders, cruz] = [0, 0, 0, 0]
# Iterate through df, counting the number of tweets in which
# each candidate is mentioned
for index, row in df.iterrows():
clinton += word_in_text('clinton', row['text'])
trump += word_in_text(____, ____)
sanders += word_in_text(____, ____)
cruz += word_in_text(____, ____)