BOW pertama Anda

Bag-of-words adalah pendekatan untuk mengubah teks menjadi bentuk numerik.

Pada latihan ini, Anda akan menerapkan BOW pada daftar annak sebelum beralih ke himpunan data yang lebih besar pada latihan berikutnya.

Tugas Anda adalah bekerja dengan daftar ini dan menerapkan BOW menggunakan CountVectorizer(). Transformasi ini adalah langkah pertama untuk memahami sentimen dari sebuah teks. Perhatikan kata-kata yang mungkin membawa sentimen kuat.

Ingat bahwa keluaran CountVectorizer() adalah matriks jarang (sparse matrix), yang hanya menyimpan entri bernilai non-nol. Untuk melihat isi sebenarnya dari matriks ini, kita mengonversinya menjadi array rapat menggunakan metode .toarray().

Perhatikan bahwa dalam kasus ini Anda tidak perlu menentukan argumen max_features karena teksnya pendek.

Latihan ini merupakan bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Instruksi latihan

Impor fungsi count vectorizer dari sklearn.feature_extraction.text.
Bangun dan latih vektorisasi pada himpunan data kecil.
Buat representasi BOW bernama anna_bow dengan memanggil metode transform().
Cetak hasil BOW sebagai array rapat.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the required function
____

annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']

# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)

# Create the bow representation
anna_bow = anna_vect.____(annak)

# Print the bag-of-words result 
print(anna_bow.toarray())

Edit dan Jalankan Kode