MulaiMulai sekarang secara gratis

Regex dengan tokenisasi NLTK

Twitter sering digunakan sebagai sumber teks dan tugas NLP. Pada latihan ini, Anda akan membangun tokenisasi yang lebih kompleks untuk tweet dengan tagar dan mention menggunakan nltk dan regex. Kelas nltk.tokenize.TweetTokenizer memberi Anda beberapa metode dan atribut tambahan untuk mengurai tweet.

Di sini, Anda diberikan beberapa contoh tweet untuk diurai menggunakan TweetTokenizer dan regexp_tokenize dari modul nltk.tokenize. Contoh tweet ini telah dimuat sebelumnya ke dalam variabel tweets. Silakan eksplor di IPython Shell!

Berbeda dengan sintaks untuk pustaka regex, dengan nltk_tokenize() Anda memberikan pola sebagai argumen kedua.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the necessary modules
____
____
Edit dan Jalankan Kode