or
Bu egzersiz, kursun bir parçasıdır
Haber makalelerini sınıflandırmaya hazır olmadan önce, kümelemenin temellerine giriş yapman gerekiyor. Bu bölümde, gözetimsiz öğrenme adı verilen bir Machine Learning algoritmaları sınıfıyla tanışacak, ardından en popüler gözetimsiz öğrenme yöntemlerinden biri olan kümelemeyi öğreneceksin. İki yaygın kümeleme tekniğini — hiyerarşik kümeleme ve k-means kümelemeyi — öğreneceksin. Bölüm, verileri kümelemeye başlamadan önce yapılacak temel ön işleme adımlarıyla sona erer.
Bu bölüm, popüler bir kümeleme algoritması olan hiyerarşik kümelemeye ve bunun SciPy ile uygulanmasına odaklanır. Hiyerarşik kümelemeyi gerçekleştirme adımlarına ek olarak, verilerinde kaç küme olduğunu belirlemene yardımcı olacak önemli bir soruyu yanıtlamayı amaçlar. Bölüm, hiyerarşik kümelemenin sınırlamaları ve bu yöntemi kullanırken dikkat edilmesi gereken noktalarla ilgili bir tartışma ile sona erer.
Bu bölüm, farklı bir kümeleme algoritması olan k-means kümelemeyi ve onun SciPy ile uygulanmasını tanıtır. K-means kümeleme, önceki bölümde tartışılan hiyerarşik kümelemenin en büyük dezavantajını aşar. Dendrogramlar yalnızca hiyerarşik kümelemede kullanıldığından, bu bölüm k-means kümelemeyi çalıştırmadan önce küme sayısını bulmanın bir yöntemini ele alır. Bölüm, k-means kümelemenin sınırlamaları ve bu algoritmayı kullanırken dikkat edilmesi gerekenler üzerine bir tartışma ile sona erer.
Artık en popüler iki kümeleme tekniğine aşina olduğuna göre, bu bölüm bu bilgiyi gerçek dünya problemlerine uygulamana yardımcı olur. Önce bir görselde baskın renkleri bulma sürecini ele alır, ardından girişte bahsedilen probleme — haber makalelerinin kümelenmesine — geçer. Bölüm, çok değişkenli kümeleme üzerine bir tartışmayla sona erer; bu durum tüm verileri görselleştirmeyi zorlaştırır.
Geçerli egzersiz