Menemukan kata kunci
Menghitung kata kunci yang sudah diketahui adalah salah satu cara awal untuk menganalisis data teks dalam himpunan data Twitter. Pada himpunan data ini, Anda akan menghitung berapa kali tagar tertentu muncul dalam kumpulan tweet tentang data science. Untuk itu, Anda akan menggunakan metode string pada objek Series di pandas.
pandas dan numpy telah diimpor sebagai pd dan np. Versi flatten_tweets yang lebih lengkap dan data_science_json juga telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Menganalisis Data Media Sosial dengan Python
Petunjuk latihan
- Rata-kan struktur tweet dengan
flatten_tweets()dan simpan sebagaiflat_tweets. - Konversikan tweet menjadi DataFrame menggunakan konstruktor DataFrame dari pandas.
- Temukan kemunculan
#pythonpada'text'dengan mengabaikan huruf besar/kecil. - Cetak proporsi tweet yang menyebut
#pythondengan menjumlahkanpythonmenggunakannp.sum()dan membaginya dengan jumlah total tweet.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Flatten the tweets and store them
____ = ____(____)
# Convert to DataFrame
ds_tweets = ____.____(____)
# Find mentions of #python in 'text'
python = ____[____].____.____(____, ____)
# Print proportion of tweets mentioning #python
print("Proportion of #python tweets:", ____ / ____)