Langkah 2: Membangun vectorizer
Pada latihan ini, Anda diminta membuat transformasi TfIDf dari kolom review pada himpunan data reviews. Anda diminta menentukan argumen n-gram, stop word, pola token, dan ukuran kosakata.
Ini adalah langkah terakhir sebelum kita melatih classifier untuk memprediksi sentimen sebuah ulasan.
Pastikan Anda menentukan jumlah fitur maksimum dengan tepat, karena ukuran kosakata yang terlalu besar dapat memutus sesi Anda.
Latihan ini merupakan bagian dari kursus
Analisis Sentimen dengan Python
Instruksi latihan
- Impor Tfidf vectorizer dan daftar standar stop word bahasa Inggris.
- Bangun Tfidf vectorizer dengan menentukan — dalam urutan ini — argumen berikut: gunakan daftar standar stop word bahasa Inggris; gunakan uni- dan bi-gram sebagai n-gram; jumlah fitur maksimum harus 200; tangkap hanya kata dengan pola yang ditentukan.
- Buat DataFrame menggunakan Tfidf vectorizer.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Import the TfidfVectorizer and default list of English stop words
from sklearn.feature_extraction.text import ____, ____
# Build the vectorizer
vect = ____(____=____, ____=(1, 2), ____=200, ____=r'\b[^\d\W][^\d\W]+\b').fit(reviews.review)
# Create sparse matrix from the vectorizer
X = vect.transform(reviews.review)
# Create a DataFrame
reviews_transformed = pd.DataFrame(X.____, columns=vect.____)
print('Top 5 rows of the DataFrame: \n', reviews_transformed.head())