Wikipedia kümeleme bölüm II

Artık önceki egzersizde oluşturduğun pipeline'ı çalıştırma zamanı! Sana bazı popüler Wikipedia makalelerinin tf-idf kelime sıklıklarından oluşan articles adlı bir dizi ve bu makalelerin başlıklarını içeren titles adlı bir liste verildi. Pipeline'ını kullanarak Wikipedia makalelerini kümelendir.

Önceki egzersizin çözümü senin için yüklendi; bu nedenle TruncatedSVD ile KMeans'i zincirleyen bir Pipeline pipeline hazır.

Bu egzersiz, kursun bir parçasıdır

Python'da Unsupervised Learning

Kursa Göz Atın

Egzersiz talimatları

pandas'ı pd olarak içe aktar.
Pipeline'ı kelime sıklığı dizisi articles üzerine uydur.
Küme etiketlerini tahmin et.
Küme etiketlerini makale başlıklarının listesi titles ile hizalamak için labels ve titles sütunlarına sahip bir df DataFrame'i oluştur. Bu senin için yapıldı.
DataFrame'i 'label' sütununa göre sıralamak için df'nin .sort_values() metodunu kullan ve sonucu yazdır.
Yanıtı Gönder'e bas ve Wikipedia sayfalarının harika kümelenmesini biraz incele!

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python'da Unsupervised Learning

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bir veri kümesindeki temel grupları (ya da "kümeleri") nasıl keşfedeceğini öğren. Bu bölümün sonunda, şirketleri borsa fiyatlarına göre kümeliyor ve ölçümlerini kümeleyerek farklı türleri ayırt ediyor olacaksın.

Exercise 1: Unsupervised Learning Exercise 2: Kaç küme var?Exercise 3: 2B noktaları kümeleme Exercise 4: Kümelemeni incele Exercise 5: Bir kümelenmeyi değerlendirme Exercise 6: Kaç tahıl kümesi var?Exercise 7: Tahıl kümelemesini değerlendirme Exercise 8: Daha iyi kümelenmeler için özellikleri dönüştürme Exercise 9: Kümelenme için balık verilerini ölçekleme Exercise 10: Balık verilerini kümeleme Exercise 11: KMeans ile hisseleri kümeleme Exercise 12: Hangi hisseler birlikte hareket ediyor?

Bu bölümde, veri görselleştirme için iki unsupervised learning tekniğini öğreneceksin: hiyerarşik kümeleme ve t-SNE. Hiyerarşik kümeleme, veri örneklerini giderek daha kaba kümelerde birleştirerek ortaya çıkan küme hiyerarşisinin ağaç görselleştirmesini sağlar. t-SNE ise veri örneklerini 2 boyutlu uzaya eşleyerek örneklerin birbirlerine yakınlığını görselleştirmeni mümkün kılar.

Exercise 1: Hiyerarşileri görselleştirme Exercise 2: Kaç birleştirme?Exercise 3: Tahıl verilerinin hiyerarşik kümelemesi Exercise 4: Hisse senedi hiyerarşileri Exercise 5: Hiyerarşik kümelemede küme etiketleri Exercise 6: Hangi kümeler daha yakın?Exercise 7: Farklı bağlantı, farklı hiyerarşik kümeleme!Exercise 8: Ara kümelemeler Exercise 9: Küme etiketlerini çıkarma Exercise 10: 2 boyutlu haritalar için t-SNE Exercise 11: t-SNE ile tahıl veri kümesinin görselleştirilmesi Exercise 12: Borsa için bir t-SNE haritası

Boyut indirgeme, bir veri kümesini sık görülen kalıplarıyla özetler. Bu bölümde, boyut indirgeme tekniklerinin en temeli olan "Principal Component Analysis" ("PCA") yöntemini öğreneceksin. PCA, model performansını ve genelleme yeteneğini artırmak için çoğunlukla supervised learning'den önce kullanılır. Unsupervised learning için de faydalı olabilir. Örneğin, bir PCA varyantını kullanarak Wikipedia makalelerini içeriklerine göre kümleyebileceksin!

Exercise 1: PCA dönüşümünü görselleştirme Exercise 2: Doğada ilişkili veriler Exercise 3: Tahıl ölçümlerini PCA ile ilişkisizleştirme Exercise 4: Temel bileşenler Exercise 5: İçsel boyut Exercise 6: İlk temel bileşen Exercise 7: PCA özelliklerinin varyansı Exercise 8: Balık verisinin içsel boyutu Exercise 9: PCA ile boyut indirgeme Exercise 10: Balık ölçümlerinde boyut indirgeme Exercise 11: Bir tf-idf sözcük sıklığı dizisi Exercise 12: Wikipedia'yı kümeleme I Exercise 13: Wikipedia kümeleme bölüm II

Geçerli egzersiz

Bu bölümde, örnekleri yorumlanabilir parça birleşimleri olarak ifade eden bir boyut indirgeme tekniği olan "Non-negative matrix factorization" ("NMF") yöntemini öğreneceksin. Örneğin, belgeleri konu birleşimleriyle ve görselleri sık görülen görsel kalıplarla ifade eder. Ayrıca, dinleme geçmişinle eşleşen müzik sanatçılarını veya okumak için benzer makaleleri bulabilen öneri sistemleri kurmak üzere NMF kullanmayı da öğreneceksin!

Exercise 1: Negatif olmayan matris ayrıştırması (NMF)Exercise 2: Negatif olmayan veriler Exercise 3: Wikipedia makalelerine NMF uygulamak Exercise 4: Wikipedia makalelerinin NMF özellikleri Exercise 5: NMF örnekleri yeniden oluşturur Exercise 6: NMF yorumlanabilir parçaları öğrenir Exercise 7: NMF, belgelerin konularını öğrenir Exercise 8: LED rakamları veri kümesini keşfet Exercise 9: NMF, görüntülerin parçalarını öğrenir Exercise 10: PCA parçaları öğrenmez Exercise 11: NMF kullanarak öneri sistemleri oluşturma Exercise 12: 'Cristiano Ronaldo'ya benzer hangi makaleler var?Exercise 13: Müzik sanatçıları önerisi I Exercise 14: Müzik sanatçıları önerisi bölüm II Exercise 15: Son düşünceler