Array frekuensi kata tf-idf

Pada latihan ini, Anda akan membuat array frekuensi kata tf-idf untuk kumpulan dokumen sederhana. Untuk itu, gunakan TfidfVectorizer dari sklearn. Objek ini mengubah daftar dokumen menjadi array frekuensi kata, yang dikeluarkan sebagai csr_matrix. Ia memiliki metode fit() dan transform() seperti objek sklearn lainnya.

Anda diberikan daftar documents yang berisi dokumen sederhana tentang hewan peliharaan.

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

Instruksi latihan

Impor TfidfVectorizer dari sklearn.feature_extraction.text.
Buat instance TfidfVectorizer bernama tfidf.
Terapkan metode .fit_transform() dari tfidf ke documents dan tetapkan hasilnya ke csr_mat. Ini adalah array frekuensi kata dalam format csr_matrix.
Periksa csr_mat dengan memanggil metode .toarray() dan mencetak hasilnya. Langkah ini sudah dilakukan untuk Anda.
Kolom-kolom pada array berkorespondensi dengan kata. Dapatkan daftar kata dengan memanggil metode .get_feature_names_out() dari tfidf, dan tetapkan hasilnya ke words.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Unsupervised Learning in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari cara menemukan kelompok (atau "klaster") yang mendasari dalam sebuah himpunan data. Pada akhir bab ini, Anda akan mengelompokkan perusahaan menggunakan harga pasar sahamnya, dan membedakan berbagai spesies dengan mengelompokkan pengukuran mereka.

Exercise 1: Unsupervised Learning Exercise 2: Ada berapa klaster?Exercise 3: Melakukan klasterisasi titik 2D Exercise 4: Periksa klastering Anda Exercise 5: Mengevaluasi sebuah pengelompokan Exercise 6: Berapa banyak klaster untuk biji-bijian?Exercise 7: Mengevaluasi pengelompokan biji-bijian Exercise 8: Mentransformasi fitur untuk pengelompokan yang lebih baik Exercise 9: Menskalakan data ikan untuk klastering Exercise 10: Mengelompokkan data ikan Exercise 11: Mengelompokkan saham menggunakan KMeans Exercise 12: Saham mana yang bergerak bersama?

Pada bab ini, Anda akan mempelajari dua teknik unsupervised learning untuk visualisasi data: hierarchical clustering dan t-SNE. Hierarchical clustering menggabungkan sampel data menjadi klaster yang makin besar, menghasilkan visualisasi pohon dari hierarki klaster yang terbentuk. t-SNE memetakan sampel data ke ruang 2D sehingga kedekatan antar sampel dapat divisualisasikan.

Exercise 1: Memvisualisasikan hierarki Exercise 2: Berapa banyak penggabungan?Exercise 3: Hierarchical clustering pada data biji-bijian Exercise 4: Hierarki saham Exercise 5: Label klaster dalam hierarchical clustering Exercise 6: Klaster mana yang paling dekat?Exercise 7: Linkage berbeda, hierarchical clustering berbeda!Exercise 8: Pengelompokan menengah Exercise 9: Mengekstrak label klaster Exercise 10: t-SNE untuk peta 2 dimensi Exercise 11: Visualisasi t-SNE pada himpunan data biji-bijian Exercise 12: Peta t-SNE pasar saham

Reduksi dimensi merangkum sebuah himpunan data menggunakan pola yang sering muncul. Pada bab ini, Anda akan mempelajari teknik reduksi dimensi paling mendasar, "Principal Component Analysis" ("PCA"). PCA sering digunakan sebelum supervised learning untuk meningkatkan kinerja dan generalisasi model. PCA juga bermanfaat untuk unsupervised learning. Misalnya, Anda akan menggunakan varian PCA yang memungkinkan Anda mengelompokkan artikel Wikipedia berdasarkan isinya!

Exercise 1: Memvisualisasikan transformasi PCA Exercise 2: Data berkorelasi di alam Exercise 3: Menghilangkan korelasi pengukuran biji dengan PCA Exercise 4: Komponen utama Exercise 5: Dimensi intrinsik Exercise 6: Komponen utama pertama Exercise 7: Varians dari fitur PCA Exercise 8: Dimensi intrinsik dari data ikan Exercise 9: Reduksi dimensi dengan PCA Exercise 10: Reduksi dimensi pada pengukuran ikan Exercise 11: Array frekuensi kata tf-idf

Latihan Saat Ini

Exercise 12: Pengelompokan Wikipedia bagian I Exercise 13: Mengelompokkan Wikipedia bagian II

Pada bab ini, Anda akan mempelajari teknik reduksi dimensi bernama "Non-negative matrix factorization" ("NMF") yang mengekspresikan sampel sebagai kombinasi bagian-bagian yang dapat diinterpretasikan. Misalnya, teknik ini mengekspresikan dokumen sebagai kombinasi topik, dan gambar sebagai pola visual yang sering muncul. Anda juga akan belajar menggunakan NMF untuk membangun sistem rekomendasi yang dapat menemukan artikel serupa untuk dibaca, atau artis musik yang sesuai dengan riwayat mendengarkan Anda!

Exercise 1: Non-negative matrix factorization (NMF)Exercise 2: Data non-negatif Exercise 3: Penerapan NMF pada artikel Wikipedia Exercise 4: Fitur NMF dari artikel Wikipedia Exercise 5: NMF merekonstruksi sampel Exercise 6: NMF mempelajari komponen yang dapat ditafsirkan Exercise 7: NMF mempelajari topik dokumen Exercise 8: Jelajahi himpunan data digit LED Exercise 9: NMF mempelajari bagian-bagian dari citra Exercise 10: PCA tidak mempelajari bagian-bagian Exercise 11: Membangun sistem rekomendasi menggunakan NMF Exercise 12: Artikel mana yang mirip dengan 'Cristiano Ronaldo'?Exercise 13: Rekomendasikan artis musik bagian I Exercise 14: Rekomendasikan artis musik bagian II Exercise 15: Penutup