Kelimeleri sayma (I)

Üst düzey bilgiler kaydedildikten sonra, her bir metnin gerçek içeriğine dayalı özellikler oluşturmaya başlayabilirsin. Bunu yapmanın bir yolu, önceki derslerde kategorik değişkenlerle çalışmana benzer bir yaklaşım izlemektir.

Veri kümesindeki her benzersiz kelime için bir sütun oluşturulur.
Her kayıt için, bu kelimenin kaç kez geçtiği sayılır ve bu sayı ilgili sütuna yazılır.

Bu "count" sütunları daha sonra Machine Learning modellerini eğitmek için kullanılabilir.

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

sklearn.feature_extraction.text içinden CountVectorizer'ı içe aktar.
CountVectorizer'ı oluştur ve cv değişkenine ata.
Vektörleştiriciyi text_clean sütununa fit et.
Vektörleştiricinin ürettiği özellik adlarını yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import CountVectorizer
____

# Instantiate CountVectorizer
cv = ____

# Fit the vectorizer
cv.____(speech_df['text_clean'])

# Print feature names
print(cv.____)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Machine Learning için Özellik Mühendisliği

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde, özellik mühendisliğinin ne olduğunu ve bunu gerçek dünya verilerine nasıl uygulamaya başlayacağını keşfedeceksin. Bir anket yanıt veri kümesini yükleyip inceleyecek ve görselleştireceksin; bunu yaparken altta yatan veri tiplerini ve bunların özelliklerini nasıl tasarlaman gerektiğini neden etkilediğini öğreneceksin. pandas paketini kullanarak hem kategorik hem de sürekli sütunlardan yeni özellikler oluşturacaksın.

Exercise 1: Neden özellik üretiyoruz?Exercise 2: Verini tanı Exercise 3: Belirli veri tiplerini seçme Exercise 4: Kategorik özelliklerle çalışmak Exercise 5: One-hot encoding ve kukla değişkenler Exercise 6: Nadir kategorilerle başa çıkma Exercise 7: Sayısal değişkenler Exercise 8: Sütunları ikili değerlere dönüştürme Exercise 9: Değerleri bölmelere ayırma (binning)

Bu bölüm, dağınık ve eksik verilerin gerçekliğiyle seni tanıştırıyor. Verinde eksik değerlerin nerede olduğunu bulmayı ve onlarla nasıl başa çıkacağına dair birden çok yaklaşımı keşfetmeyi öğreneceksin. Ayrıca veri küpendeki istenmeyen karakterlerle başa çıkmak için dize (string) işleme tekniklerini kullanacaksın.

Exercise 1: Eksik değerler neden var?Exercise 2: Verim ne kadar seyrek?Exercise 3: Eksik değerleri bulma Exercise 4: Eksik değerlerle başa çıkma (I)Exercise 5: Liste bazlı silme Exercise 6: Eksik değerleri sabitlerle değiştirme Exercise 7: Eksik değerlerle başa çıkma (II)Exercise 8: Sürekli eksik değerleri doldurma Exercise 9: Tahmine dayalı modellerde değer atama (imputation)Exercise 10: Diğer veri sorunlarını ele alma Exercise 11: Başıboş karakterlerle başa çıkma (I)Exercise 12: Başıboş karakterlerle başa çıkma (II)Exercise 13: Metot zincirleme

Bu bölümde, verinin altta yatan dağılımını ve bunun Machine Learning sürecini etkileyip etkilemeyeceğini analiz etmeye odaklanacaksın. Çarpık dağılımlarla ve aykırı değerlerin analizini olumsuz etkileyebileceği durumlarla nasıl başa çıkacağını öğreneceksin.

Exercise 1: Veri dağılımları Exercise 2: Verilerin nasıl görünüyor? (I)Exercise 3: Verilerin nasıl görünüyor? (II)Exercise 4: Verilerini ne zaman dönüştürmek zorunda değilsin?Exercise 5: Ölçekleme ve dönüşümler Exercise 6: Normalizasyon Exercise 7: Standardizasyon Exercise 8: Log dönüşümü Exercise 9: Normalleştirmeyi ne zaman kullanabilirsin?Exercise 10: Aykırı değerleri kaldırma Exercise 11: Yüzdeye dayalı aykırı değer kaldırma Exercise 12: İstatistiksel aykırı değer kaldırma Exercise 13: Yeni veriyi ölçekleme ve dönüştürme Exercise 14: Eğitim ve test dönüşümleri (I)Exercise 15: Eğitim ve test dönüşümleri (II)

Son olarak, bu bölümde yapılandırılmamış metin verileriyle çalışacak ve bir metin derlemesinden sütun türünde özellikler üretmenin yollarını anlayacaksın. Farklı yaklaşımların metinden ne kadar bağlam çıkarıldığını nasıl etkileyebileceğini ve çok fazla özellik oluşturmadan bağlam ihtiyacını nasıl dengeleyeceğini karşılaştıracaksın.

Exercise 1: Metni kodlama Exercise 2: Metnini temizleme Exercise 3: Yüksek düzey metin özellikleri Exercise 4: Kelime sayımları Exercise 5: Kelimeleri sayma (I)

Geçerli egzersiz

Exercise 6: Kelimeleri sayma (II)Exercise 7: Özelliklerini sınırlama Exercise 8: Metinden DataFrame'e Exercise 9: Terim sıklığı - ters belge sıklığı Exercise 10: Tf-idf Exercise 11: Tf-idf değerlerini inceleme Exercise 12: Görülmemiş veriyi dönüştürme Exercise 13: N-gramlar Exercise 14: Daha uzun n-gram'lar kullanma Exercise 15: En yaygın sözcükleri bulma Exercise 16: Kapanış