Langkah 2: Membangun vectorizer
Pada latihan ini, Anda diminta membuat transformasi TfIDf dari kolom review pada himpunan data reviews. Anda diminta menentukan argumen n-gram, stop word, pola token, dan ukuran kosakata.
Ini adalah langkah terakhir sebelum kita melatih classifier untuk memprediksi sentimen sebuah ulasan.
Pastikan Anda menentukan jumlah fitur maksimum dengan tepat, karena ukuran kosakata yang terlalu besar dapat memutus sesi Anda.
Latihan ini adalah bagian dari kursus
Analisis Sentimen dengan Python
Petunjuk latihan
- Impor Tfidf vectorizer dan daftar standar stop word bahasa Inggris.
- Bangun Tfidf vectorizer dengan menentukan — dalam urutan ini — argumen berikut: gunakan daftar standar stop word bahasa Inggris; gunakan uni- dan bi-gram sebagai n-gram; jumlah fitur maksimum harus 200; tangkap hanya kata dengan pola yang ditentukan.
- Buat DataFrame menggunakan Tfidf vectorizer.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____
# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)
# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())