Film özetlerinin TF-IDF'i

Belir randomly seçilen filmlerin özetlerini belge kümeleme için kullanalım. Belgelerde kümeleme yapmadan önce, istenmeyen gürültüden (özel karakterler ve durak sözcükler gibi) arındırılmaları ve TF-IDF ile seyrek bir matrise dönüştürülmeleri gerekir.

Listede yer alan plots değişkenindeki film özetlerinin TF-IDF'ini oluşturmak için TfidfVectorizer sınıfını kullan. remove_noise() fonksiyonu, TfidfVectorizer sınıfında tokenizer olarak kullanılmak üzere hazır. .fit_transform() metodu veriyi TfidfVectorizer nesnesine uydurur ve ardından TF-IDF seyrek matrisini üretir.

Not: .fit_transform() metodunun çalışması birkaç saniye sürebilir.

Bu egzersiz, kursun bir parçasıdır

Python ile Kümeleme Analizi

Kursa Göz Atın

Egzersiz talimatları

sklearn içinden TfidfVectorizer sınıfını içe aktar.
TfidfVectorizer sınıfını minimum ve maksimum frekansları sırasıyla 0.1 ve 0.75, maksimum özellik sayısını 50 olacak şekilde başlat.
Başlatılan TfidfVectorizer sınıfında fit_transform() metodunu plots listesiyle kullan.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Kümeleme Analizi

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Haber makalelerini sınıflandırmaya hazır olmadan önce, kümelemenin temellerine giriş yapman gerekiyor. Bu bölümde, gözetimsiz öğrenme adı verilen bir Machine Learning algoritmaları sınıfıyla tanışacak, ardından en popüler gözetimsiz öğrenme yöntemlerinden biri olan kümelemeyi öğreneceksin. İki yaygın kümeleme tekniğini — hiyerarşik kümeleme ve k-means kümelemeyi — öğreneceksin. Bölüm, verileri kümelemeye başlamadan önce yapılacak temel ön işleme adımlarıyla sona erer.

Exercise 1: Unsupervised learning: temel bilgiler Exercise 2: Gerçek dünyada unsupervised learning Exercise 3: Pokémon gözlemleri Exercise 4: Kümeleme analizinin temelleri Exercise 5: Pokémon görümleri: hiyerarşik kümeleme Exercise 6: Pokémon gözlemleri: k-means kümeleme Exercise 7: Kümeleme analizi için veri hazırlığı Exercise 8: Temel liste verisini normalize et Exercise 9: Normalize edilmiş veriyi görselleştir Exercise 10: Küçük sayıların normalizasyonu Exercise 11: FIFA 18: Verileri normalize et

Bu bölüm, popüler bir kümeleme algoritması olan hiyerarşik kümelemeye ve bunun SciPy ile uygulanmasına odaklanır. Hiyerarşik kümelemeyi gerçekleştirme adımlarına ek olarak, verilerinde kaç küme olduğunu belirlemene yardımcı olacak önemli bir soruyu yanıtlamayı amaçlar. Bölüm, hiyerarşik kümelemenin sınırlamaları ve bu yöntemi kullanırken dikkat edilmesi gereken noktalarla ilgili bir tartışma ile sona erer.

Exercise 1: Hiyerarşik kümelemenin temelleri Exercise 2: Hiyerarşik kümeleme: ward yöntemi Exercise 3: Hiyerarşik kümeleme: single yöntemi Exercise 4: Hiyerarşik kümeleme: complete yöntemi Exercise 5: Kümeleri görselleştir Exercise 6: matplotlib ile kümeleri görselleştir Exercise 7: seaborn ile kümeleri görselleştir Exercise 8: Kaç küme var?Exercise 9: Bir dendrogram oluştur Exercise 10: Comic Con verilerinde kaç küme var?Exercise 11: Hiyerarşik kümelemenin sınırlamaları Exercise 12: Hiyerarşik kümelemeyi çalıştırmanın süresini ölçme Exercise 13: FIFA 18: defans oyuncularını keşfetme

Bu bölüm, farklı bir kümeleme algoritması olan k-means kümelemeyi ve onun SciPy ile uygulanmasını tanıtır. K-means kümeleme, önceki bölümde tartışılan hiyerarşik kümelemenin en büyük dezavantajını aşar. Dendrogramlar yalnızca hiyerarşik kümelemede kullanıldığından, bu bölüm k-means kümelemeyi çalıştırmadan önce küme sayısını bulmanın bir yöntemini ele alır. Bölüm, k-means kümelemenin sınırlamaları ve bu algoritmayı kullanırken dikkat edilmesi gerekenler üzerine bir tartışma ile sona erer.

Exercise 1: k-means kümelemenin temelleri Exercise 2: K-means kümeleme: ilk egzersiz Exercise 3: k-means kümelemenin çalışma süresi Exercise 4: Kaç küme?Exercise 5: Belirgin kümelerde dirsek yöntemi Exercise 6: Uniform verilerde dirsek yöntemi Exercise 7: k-means kümelemenin sınırlamaları Exercise 8: Tohumların farklı kümeler üzerindeki etkisi Exercise 9: Tekdüze kümeleme desenleri Exercise 10: FIFA 18: savunmacılara yeniden bakalım

Artık en popüler iki kümeleme tekniğine aşina olduğuna göre, bu bölüm bu bilgiyi gerçek dünya problemlerine uygulamana yardımcı olur. Önce bir görselde baskın renkleri bulma sürecini ele alır, ardından girişte bahsedilen probleme — haber makalelerinin kümelenmesine — geçer. Bölüm, çok değişkenli kümeleme üzerine bir tartışmayla sona erer; bu durum tüm verileri görselleştirmeyi zorlaştırır.

Exercise 1: Görüntülerde baskın renkler Exercise 2: Görüntüden RGB değerlerini çıkar Exercise 3: Kaç baskın renk var?Exercise 4: Baskın renkleri görüntüle Exercise 5: Belge kümeleme Exercise 6: Film özetlerinin TF-IDF'i

Geçerli egzersiz

Exercise 7: Film kümelerindeki en iyi terimler Exercise 8: Birden çok özellik ile kümeleme Exercise 9: Çok sayıda özellikle kümeleme Exercise 10: Kümelerde temel kontroller Exercise 11: FIFA 18: eksiksiz bir oyuncuyu ne yapar?Exercise 12: Hoşça kal!