Operator string dengan data Twitter
Anda melanjutkan bekerja dengan data tweets di mana kolom text menyimpan konten setiap tweet.
Tugas Anda adalah mengubah kolom text menjadi daftar token. Lalu, dengan menggunakan operator string, hapus semua karakter nonalfabet dari daftar token yang dibuat.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Impor fungsi tokenisasi kata.
- Buat token kata dari setiap tweet.
- Saring semua karakter nonalfabet dari daftar yang dibuat, yaitu hanya pertahankan huruf.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the word tokenizing package
____
# Tokenize the text column
word_tokens = [____(review) for review in tweets.text]
print('Original tokens: ', word_tokens[0])
# Filter out non-letter characters
cleaned_tokens = [[word for word in item if ____.____] for item in word_tokens]
print('Cleaned tokens: ', cleaned_tokens[0])