Regex dengan tokenisasi NLTK
Twitter sering digunakan sebagai sumber teks dan tugas NLP. Pada latihan ini, Anda akan membangun tokenisasi yang lebih kompleks untuk tweet dengan tagar dan mention menggunakan nltk dan regex. Kelas nltk.tokenize.TweetTokenizer memberi Anda beberapa metode dan atribut tambahan untuk mengurai tweet.
Di sini, Anda diberikan beberapa contoh tweet untuk diurai menggunakan TweetTokenizer dan regexp_tokenize dari modul nltk.tokenize. Contoh tweet ini telah dimuat sebelumnya ke dalam variabel tweets. Silakan eksplor di IPython Shell!
Berbeda dengan sintaks untuk pustaka regex, dengan nltk_tokenize() Anda memberikan pola sebagai argumen kedua.
Latihan ini merupakan bagian dari kursus
Pengantar Natural Language Processing di Python
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import the necessary modules
____
____