Bir tf-idf sözcük sıklığı dizisi

Bu egzersizde, küçük bir belge koleksiyonu için tf-idf sözcük sıklığı dizisi oluşturacaksın. Bunun için sklearn içindeki TfidfVectorizer'ı kullan. Bu araç, belge listesini bir sözcük sıklığı dizisine dönüştürür ve çıktıyı bir csr_matrix olarak verir. Diğer sklearn nesneleri gibi fit() ve transform() yöntemlerine sahiptir.

Sana evcil hayvanlar hakkında örnek belgelerden oluşan documents listesi verildi.

Bu egzersiz, kursun bir parçasıdır

Python'da Unsupervised Learning

Kursa Göz Atın

Egzersiz talimatları

sklearn.feature_extraction.text içinden TfidfVectorizer'ı import et.
tfidf adında bir TfidfVectorizer örneği oluştur.
tfidf'in .fit_transform() yöntemini documents üzerinde uygula ve sonucu csr_mat değişkenine ata. Bu, csr_matrix biçiminde bir sözcük-sıklığı dizisidir.
csr_mat'i .toarray() yöntemini çağırarak incele ve sonucu yazdır. Bu adım senin için yapıldı.
Dizinin sütunları sözcüklere karşılık gelir. Sözcüklerin listesini almak için tfidf'in .get_feature_names_out() yöntemini çağır ve sonucu words değişkenine ata.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python'da Unsupervised Learning

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bir veri kümesindeki temel grupları (ya da "kümeleri") nasıl keşfedeceğini öğren. Bu bölümün sonunda, şirketleri borsa fiyatlarına göre kümeliyor ve ölçümlerini kümeleyerek farklı türleri ayırt ediyor olacaksın.

Exercise 1: Unsupervised Learning Exercise 2: Kaç küme var?Exercise 3: 2B noktaları kümeleme Exercise 4: Kümelemeni incele Exercise 5: Bir kümelenmeyi değerlendirme Exercise 6: Kaç tahıl kümesi var?Exercise 7: Tahıl kümelemesini değerlendirme Exercise 8: Daha iyi kümelenmeler için özellikleri dönüştürme Exercise 9: Kümelenme için balık verilerini ölçekleme Exercise 10: Balık verilerini kümeleme Exercise 11: KMeans ile hisseleri kümeleme Exercise 12: Hangi hisseler birlikte hareket ediyor?

Bu bölümde, veri görselleştirme için iki unsupervised learning tekniğini öğreneceksin: hiyerarşik kümeleme ve t-SNE. Hiyerarşik kümeleme, veri örneklerini giderek daha kaba kümelerde birleştirerek ortaya çıkan küme hiyerarşisinin ağaç görselleştirmesini sağlar. t-SNE ise veri örneklerini 2 boyutlu uzaya eşleyerek örneklerin birbirlerine yakınlığını görselleştirmeni mümkün kılar.

Exercise 1: Hiyerarşileri görselleştirme Exercise 2: Kaç birleştirme?Exercise 3: Tahıl verilerinin hiyerarşik kümelemesi Exercise 4: Hisse senedi hiyerarşileri Exercise 5: Hiyerarşik kümelemede küme etiketleri Exercise 6: Hangi kümeler daha yakın?Exercise 7: Farklı bağlantı, farklı hiyerarşik kümeleme!Exercise 8: Ara kümelemeler Exercise 9: Küme etiketlerini çıkarma Exercise 10: 2 boyutlu haritalar için t-SNE Exercise 11: t-SNE ile tahıl veri kümesinin görselleştirilmesi Exercise 12: Borsa için bir t-SNE haritası

Boyut indirgeme, bir veri kümesini sık görülen kalıplarıyla özetler. Bu bölümde, boyut indirgeme tekniklerinin en temeli olan "Principal Component Analysis" ("PCA") yöntemini öğreneceksin. PCA, model performansını ve genelleme yeteneğini artırmak için çoğunlukla supervised learning'den önce kullanılır. Unsupervised learning için de faydalı olabilir. Örneğin, bir PCA varyantını kullanarak Wikipedia makalelerini içeriklerine göre kümleyebileceksin!

Exercise 1: PCA dönüşümünü görselleştirme Exercise 2: Doğada ilişkili veriler Exercise 3: Tahıl ölçümlerini PCA ile ilişkisizleştirme Exercise 4: Temel bileşenler Exercise 5: İçsel boyut Exercise 6: İlk temel bileşen Exercise 7: PCA özelliklerinin varyansı Exercise 8: Balık verisinin içsel boyutu Exercise 9: PCA ile boyut indirgeme Exercise 10: Balık ölçümlerinde boyut indirgeme Exercise 11: Bir tf-idf sözcük sıklığı dizisi

Geçerli egzersiz

Exercise 12: Wikipedia'yı kümeleme I Exercise 13: Wikipedia kümeleme bölüm II

Bu bölümde, örnekleri yorumlanabilir parça birleşimleri olarak ifade eden bir boyut indirgeme tekniği olan "Non-negative matrix factorization" ("NMF") yöntemini öğreneceksin. Örneğin, belgeleri konu birleşimleriyle ve görselleri sık görülen görsel kalıplarla ifade eder. Ayrıca, dinleme geçmişinle eşleşen müzik sanatçılarını veya okumak için benzer makaleleri bulabilen öneri sistemleri kurmak üzere NMF kullanmayı da öğreneceksin!

Exercise 1: Negatif olmayan matris ayrıştırması (NMF)Exercise 2: Negatif olmayan veriler Exercise 3: Wikipedia makalelerine NMF uygulamak Exercise 4: Wikipedia makalelerinin NMF özellikleri Exercise 5: NMF örnekleri yeniden oluşturur Exercise 6: NMF yorumlanabilir parçaları öğrenir Exercise 7: NMF, belgelerin konularını öğrenir Exercise 8: LED rakamları veri kümesini keşfet Exercise 9: NMF, görüntülerin parçalarını öğrenir Exercise 10: PCA parçaları öğrenmez Exercise 11: NMF kullanarak öneri sistemleri oluşturma Exercise 12: 'Cristiano Ronaldo'ya benzer hangi makaleler var?Exercise 13: Müzik sanatçıları önerisi I Exercise 14: Müzik sanatçıları önerisi bölüm II Exercise 15: Son düşünceler