TfIdf pada data sentimen maskapai di Twitter

Sekarang Anda akan membangun fitur menggunakan metode TfIdf. Anda akan tetap menggunakan himpunan data tweets.

Pada latihan ini, Anda akan memanfaatkan yang telah dipelajari di pelajaran sebelumnya: menghapus stop words, menggunakan pola token, dan menentukan n-gram.

Keluaran akhir berupa sebuah DataFrame, dengan kolom-kolom yang dibuat menggunakan TfidfVectorizer(). DataFrame seperti ini dapat langsung diberikan ke model pembelajaran terawasi, yang akan kita bahas di bab berikutnya.

Latihan ini merupakan bagian dari kursus

Analisis Sentimen dengan Python

Lihat Kursus

Instruksi latihan

Impor paket yang diperlukan untuk membangun TfidfVectorizer dan ENGLISH_STOP_WORDS.
Bangun sebuah vektorisasi TfIdf dari kolom text pada himpunan data tweets, dengan menentukan uni- dan bi-gram sebagai pilihan n-gram, token yang hanya mencakup karakter alfanumerik menggunakan pola token yang diberikan, serta stop words yang sesuai dengan ENGLISH_STOP_WORDS.
Transformasikan vektorisasi tersebut, dengan menentukan kolom yang sama seperti yang Anda fit.
Tentukan nama kolom dalam fungsi DataFrame().

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import the required vectorizer package and stop words list
____

# Define the vectorizer and specify the arguments
my_pattern = r'\b[^\d\W][^\d\W]+\b'
vect = ____(____=(1, 2), max_features=100, ____=my_pattern, ____=ENGLISH_STOP_WORDS).fit(tweets.text)

# Transform the vectorizer
X_txt = vect.____(____.____)

# Transform to a data frame and specify the column names
X=pd.DataFrame(X_txt.toarray(), columns=____.____)
print('Top 5 rows of the DataFrame: ', X.head())

Edit dan Jalankan Kode