BOW pertama Anda
Bag-of-words adalah pendekatan untuk mengubah teks menjadi bentuk numerik.
Pada latihan ini, Anda akan menerapkan BOW pada daftar annak sebelum beralih ke himpunan data yang lebih besar pada latihan berikutnya.
Tugas Anda adalah bekerja dengan daftar ini dan menerapkan BOW menggunakan CountVectorizer(). Transformasi ini adalah langkah pertama untuk memahami sentimen dari sebuah teks. Perhatikan kata-kata yang mungkin membawa sentimen kuat.
Ingat bahwa keluaran CountVectorizer() adalah matriks jarang (sparse matrix), yang hanya menyimpan entri bernilai non-nol. Untuk melihat isi sebenarnya dari matriks ini, kita mengonversinya menjadi array rapat menggunakan metode .toarray().
Perhatikan bahwa dalam kasus ini Anda tidak perlu menentukan argumen max_features karena teksnya pendek.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Impor fungsi count vectorizer dari
sklearn.feature_extraction.text. - Bangun dan latih vektorisasi pada himpunan data kecil.
- Buat representasi BOW bernama
anna_bowdengan memanggil metodetransform(). - Cetak hasil BOW sebagai array rapat.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the required function
____
annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']
# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)
# Create the bow representation
anna_bow = anna_vect.____(annak)
# Print the bag-of-words result
print(anna_bow.toarray())