NLTK ile NER

Şimdi ad-öbeği tanıma (named-entity recognition) ile biraz eğlenme zamanı! Bir haber makalesi kazınıp çalışma alanına önceden yüklendi. Görevin, bu makaledeki ad öbeklerini bulmak için nltk kullanmak.

Bulduğun isimlere göre sence makale ne hakkında olabilir?

nltk ile birlikte, nltk.tokenize içinden sent_tokenize ve word_tokenize da önceden içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Egzersiz talimatları

article değişkenini cümlelere ayır.
sentences içindeki her cümleyi bir liste üreteci kullanarak sözcüklere ayır.
Bir liste üreteci içinde, her sözcüklere ayrılmış cümleyi nltk.pos_tag() kullanarak sözcük türleriyle etiketle.
Her etiketli cümleyi nltk.ne_chunk_sents() ile ad-öbeği parçalarına ayır. pos_sentences ile birlikte ek anahtar argüman olarak binary=True belirt.
Her cümle ve her parça üzerinde döngü kur; bir ad-öbeği olup olmadığını anlamak için label niteliğine sahip olup olmadığını ve chunk.label() değerinin "NE"ye eşit olup olmadığını test et. Eşitse, o parçayı yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Tokenize the article into sentences: sentences
sentences = ____

# Tokenize each sentence into words: token_sentences
token_sentences = [____ for sent in ____]

# Tag each tokenized sentence into parts of speech: pos_sentences
pos_sentences = [____ for sent in ____] 

# Create the named entity chunks: chunked_sentences
chunked_sentences = ____

# Test for stems of the tree with 'NE' tags
for sent in chunked_sentences:
    for chunk in sent:
        if hasattr(chunk, "label") and ____ == "____":
            print(chunk)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Doğal Dil İşlemeye Giriş

IntermediárioNível de habilidade

4.7+

Kursa Ücretsiz Başla

Bu bölüm, metinleri ayrıştırmana yardımcı olmak için kelime parçalama ve düzenli ifadeler gibi bazı temel NLP kavramlarını tanıtacak. Ayrıca İngilizce dışındaki metinleri nasıl ele alacağını ve karşılaşabileceğin daha zorlu parçalama senaryolarını da öğreneceksin.

Exercise 1: Düzenli ifadelere giriş Exercise 2: Hangi desen?Exercise 3: Düzenli ifadeler pratiği: re.split() ve re.findall()Exercise 4: Tokenizasyona giriş Exercise 5: NLTK ile sözcük parçalama Exercise 6: re.search() ile daha fazla regex Exercise 7: NLTK ve regex ile ileri düzey tokenleştirme Exercise 8: Bir belirteçleyici (tokenizer) seçme Exercise 9: NLTK ile regex kullanarak tokenleştirme Exercise 10: Ascii olmayan metinlerde tokenizasyon Exercise 11: NLTK ile sözcük uzunluklarını görselleştirme Exercise 12: Grafik pratikleri

Bu bölüm, gerçek dünyada karşılaştığın herhangi bir metne uygulayabileceğin konu tanımlamayı tanıtacak. Temel NLP modellerini kullanarak, terim sıklıklarına dayanarak metinlerden konuları belirleyeceksin. NLTK ile sözcük torbası (bag-of-words) ve Tf-idf olmak üzere iki basit yöntemi deneyecek ve karşılaştıracak, ayrıca yeni bir kütüphane olan Gensim’i kullanacaksın.

Exercise 1: Bag-of-words ile kelime sayımları Exercise 2: Bag-of-words seçici Exercise 3: Bag-of-words ile Counter oluşturma Exercise 4: Basit metin ön işleme Exercise 5: Metin ön işleme adımları Exercise 6: Metin ön işleme pratiği Exercise 7: Gensim'e giriş Exercise 8: Kelime vektörleri nedir?Exercise 9: gensim ile bir korpus oluşturma ve sorgulama Exercise 10: Gensim bag-of-words Exercise 11: gensim ile Tf-idf Exercise 12: tf-idf nedir?Exercise 13: Wikipedia ile Tf-idf

Bu bölüm biraz daha ileri bir konuyu tanıtacak: adlandırılmış varlık tanıma. İngilizce ve İngilizce dışı metinlerde önceden eğitilmiş modelleri kullanarak metinlerindeki kim, ne ve nereleri belirlemeyi öğreneceksin. NLP araç kutuna eklemek üzere polyglot ve spaCy gibi yeni kütüphaneleri kullanmayı da öğreneceksin.

Exercise 1: Varlık Adı Tanıma Exercise 2: NLTK ile NER

Geçerli egzersiz

Exercise 3: Grafik çizimi alıştırması Exercise 4: NLTK ile Stanford kütüphanesi Exercise 5: SpaCy'ye Giriş Exercise 6: NLTK ile spaCy NER karşılaştırması Exercise 7: spaCy NER Kategorileri Exercise 8: polyglot ile çok dilli Varlık Tanıma (NER)Exercise 9: polyglot ile Fransızca NER I Exercise 10: polyglot ile Fransızca Varlık Tanıma II Exercise 11: polyglot ile İspanyolca NER

Öğrendiklerinin temellerini gözetimli Machine Learning ile birleştirerek bir "sahte haber" algılayıcı oluşturacaksın. Önce gözetimli Machine Learning’in temellerini öğrenecek, ardından birkaç önemli özelliği seçip fikirlerini test ederek sahte haber makalelerini belirleyip sınıflandırmaya ilerleyeceksin.

Exercise 1: NLP ile supervised learning kullanarak sahte haberleri sınıflandırma Exercise 2: Hangi olası özellikler?Exercise 3: Eğitim ve test Exercise 4: scikit-learn ile kelime sayım vektörleri oluşturma Exercise 5: Metin sınıflandırma için CountVectorizer Exercise 6: Metin sınıflandırma için TfidfVectorizer Exercise 7: Vektörleri inceleme Exercise 8: scikit-learn ile bir sınıflandırma modelini eğitme ve test etme Exercise 9: Metin sınıflandırma modelleri Exercise 10: CountVectorizer ile "sahte haber" modelini eğitme ve test etme Exercise 11: TfidfVectorizer ile "fake news" modelini eğitme ve test etme Exercise 12: Basit NLP, karmaşık problemler Exercise 13: Modeli geliştirme Exercise 14: Modelini geliştirme Exercise 15: Modelini inceleme