NMF, belgelerin konularını öğrenir

Videoda, NMF belgeler üzerine uygulandığında, bileşenlerin belge konularına karşılık geldiğini ve NMF özelliklerinin belgeleri bu konulardan yeniden oluşturduğunu öğrendin. Wikipedia makalelerini kullanarak daha önce kurduğun NMF modeli için bunu kendin doğrula. Daha önce, 3. NMF özellik değerinin oyuncular Anne Hathaway ve Denzel Washington hakkındaki makalelerde yüksek olduğunu görmüştün. Bu egzersizde, ilgili NMF bileşeninin konusunu belirleyeceksin.

Daha önce kurduğun NMF modeli model olarak mevcut; words ise kelime-frekans dizisinin sütunlarını etiketleyen kelimelerin listesi.

İşini bitirdikten sonra, Anne Hathaway ve Denzel Washington hakkındaki makalelerin ortak paylaştığı konuyu fark etmek için bir an ayır!

Bu egzersiz, kursun bir parçasıdır

Python'da Unsupervised Learning

Kursa Göz Atın

Egzersiz talimatları

pandas'ı pd olarak içe aktar.
Sütunların kelimelerle etiketlenmesi için columns=words ayarını kullanarak, model.components_'dan bir components_df DataFrame'i oluştur.
DataFrame'in boyutlarını kontrol etmek için components_df.shape değerini yazdır.
components_df DataFrame'inde .iloc[] kullanarak 3 numaralı satırı seç. Sonucu component değişkenine ata.
component'ın .nlargest() metodunu çağır ve sonucu yazdır. Bu, o bileşen için en yüksek değerlere sahip beş kelimeyi verir.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python'da Unsupervised Learning

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bir veri kümesindeki temel grupları (ya da "kümeleri") nasıl keşfedeceğini öğren. Bu bölümün sonunda, şirketleri borsa fiyatlarına göre kümeliyor ve ölçümlerini kümeleyerek farklı türleri ayırt ediyor olacaksın.

Exercise 1: Unsupervised Learning Exercise 2: Kaç küme var?Exercise 3: 2B noktaları kümeleme Exercise 4: Kümelemeni incele Exercise 5: Bir kümelenmeyi değerlendirme Exercise 6: Kaç tahıl kümesi var?Exercise 7: Tahıl kümelemesini değerlendirme Exercise 8: Daha iyi kümelenmeler için özellikleri dönüştürme Exercise 9: Kümelenme için balık verilerini ölçekleme Exercise 10: Balık verilerini kümeleme Exercise 11: KMeans ile hisseleri kümeleme Exercise 12: Hangi hisseler birlikte hareket ediyor?

Bu bölümde, veri görselleştirme için iki unsupervised learning tekniğini öğreneceksin: hiyerarşik kümeleme ve t-SNE. Hiyerarşik kümeleme, veri örneklerini giderek daha kaba kümelerde birleştirerek ortaya çıkan küme hiyerarşisinin ağaç görselleştirmesini sağlar. t-SNE ise veri örneklerini 2 boyutlu uzaya eşleyerek örneklerin birbirlerine yakınlığını görselleştirmeni mümkün kılar.

Exercise 1: Hiyerarşileri görselleştirme Exercise 2: Kaç birleştirme?Exercise 3: Tahıl verilerinin hiyerarşik kümelemesi Exercise 4: Hisse senedi hiyerarşileri Exercise 5: Hiyerarşik kümelemede küme etiketleri Exercise 6: Hangi kümeler daha yakın?Exercise 7: Farklı bağlantı, farklı hiyerarşik kümeleme!Exercise 8: Ara kümelemeler Exercise 9: Küme etiketlerini çıkarma Exercise 10: 2 boyutlu haritalar için t-SNE Exercise 11: t-SNE ile tahıl veri kümesinin görselleştirilmesi Exercise 12: Borsa için bir t-SNE haritası

Boyut indirgeme, bir veri kümesini sık görülen kalıplarıyla özetler. Bu bölümde, boyut indirgeme tekniklerinin en temeli olan "Principal Component Analysis" ("PCA") yöntemini öğreneceksin. PCA, model performansını ve genelleme yeteneğini artırmak için çoğunlukla supervised learning'den önce kullanılır. Unsupervised learning için de faydalı olabilir. Örneğin, bir PCA varyantını kullanarak Wikipedia makalelerini içeriklerine göre kümleyebileceksin!

Exercise 1: PCA dönüşümünü görselleştirme Exercise 2: Doğada ilişkili veriler Exercise 3: Tahıl ölçümlerini PCA ile ilişkisizleştirme Exercise 4: Temel bileşenler Exercise 5: İçsel boyut Exercise 6: İlk temel bileşen Exercise 7: PCA özelliklerinin varyansı Exercise 8: Balık verisinin içsel boyutu Exercise 9: PCA ile boyut indirgeme Exercise 10: Balık ölçümlerinde boyut indirgeme Exercise 11: Bir tf-idf sözcük sıklığı dizisi Exercise 12: Wikipedia'yı kümeleme I Exercise 13: Wikipedia kümeleme bölüm II

Bu bölümde, örnekleri yorumlanabilir parça birleşimleri olarak ifade eden bir boyut indirgeme tekniği olan "Non-negative matrix factorization" ("NMF") yöntemini öğreneceksin. Örneğin, belgeleri konu birleşimleriyle ve görselleri sık görülen görsel kalıplarla ifade eder. Ayrıca, dinleme geçmişinle eşleşen müzik sanatçılarını veya okumak için benzer makaleleri bulabilen öneri sistemleri kurmak üzere NMF kullanmayı da öğreneceksin!

Exercise 1: Negatif olmayan matris ayrıştırması (NMF)Exercise 2: Negatif olmayan veriler Exercise 3: Wikipedia makalelerine NMF uygulamak Exercise 4: Wikipedia makalelerinin NMF özellikleri Exercise 5: NMF örnekleri yeniden oluşturur Exercise 6: NMF yorumlanabilir parçaları öğrenir Exercise 7: NMF, belgelerin konularını öğrenir

Geçerli egzersiz

Exercise 8: LED rakamları veri kümesini keşfet Exercise 9: NMF, görüntülerin parçalarını öğrenir Exercise 10: PCA parçaları öğrenmez Exercise 11: NMF kullanarak öneri sistemleri oluşturma Exercise 12: 'Cristiano Ronaldo'ya benzer hangi makaleler var?Exercise 13: Müzik sanatçıları önerisi I Exercise 14: Müzik sanatçıları önerisi bölüm II Exercise 15: Son düşünceler