Regex dengan tokenisasi NLTK
Twitter sering digunakan sebagai sumber teks dan tugas NLP. Pada latihan ini, Anda akan membangun tokenisasi yang lebih kompleks untuk tweet dengan tagar dan mention menggunakan nltk dan regex. Kelas nltk.tokenize.TweetTokenizer memberi Anda beberapa metode dan atribut tambahan untuk mengurai tweet.
Di sini, Anda diberikan beberapa contoh tweet untuk diurai menggunakan TweetTokenizer dan regexp_tokenize dari modul nltk.tokenize. Contoh tweet ini telah dimuat sebelumnya ke dalam variabel tweets. Silakan eksplor di IPython Shell!
Berbeda dengan sintaks untuk pustaka regex, dengan nltk_tokenize() Anda memberikan pola sebagai argumen kedua.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the necessary modules
____
____