Metin, yapılandırılmamış bir veri türü olduğundan, analiz edilebilir bir forma getirmek için bir miktar düzenleme gerekir. Bu bölümde, metni tokenleştirerek, temizleyerek ve kategorik veri olarak ele alarak metne nasıl yapı kazandıracağını öğreneceksin.

Veri olarak metin

Havayolu tweet verileri

Gruplandırılmış özetler

Kategorik verileri sayma

Kullanıcı türlerini sayma

Kullanıcı türlerini özetleme

Tokenleştirme ve temizleme

Tokenlaştırma ve sayma

Temizleme ve sayma

Metni Düzenleme

Sayımlar faydalıdır ama görselleştirmeler daha etkilidir. Bu bölümde, ggplot2 bilgini tidy metin verisine nasıl uygulayacağını öğreneceksin.

Kelime sayılarını görselleştirme

Şikayetleri görselleştirme

Şikayet Olmayanları Görselleştirme

Kelime sayımı grafiklerini iyileştirme

Özel durdurma sözcükleri ekleme

Faktörler kullanarak kelime sayılarını görselleştirme

Kelime sayımı grafiklerini bölümlendirme

Ürüne göre sayma ve yeniden sıralama

Facet'lerle kelime sayılarını görselleştirme

Kelime bulutları çizmek

Kelime bulutu oluşturma

Biraz renk katalım

Metni Görselleştirme

Kelime sayımları ve görselleştirmeler içerik hakkında bir şeyler söyler, fakat daha fazlasını yapabiliriz. Bu bölümde, yalnızca kelime sayımlarının ötesine geçerek metnin duygu durumunu veya duygusal değerini analiz edeceğiz.

Duygu sözlükleri

NRC duygu durumlarını sayma

NRC duygu durumlarını görselleştirme

Sözlükleri birleştirme

Duygu sayımı

Duyguyu görselleştirme

Duygu analizini geliştirme

Veri yeniden şekillendirme pratiği

Gruplandırılmış özetlerle pratik

Şikayet türüne göre duyarlılığı görselleştirme

Duygu Analizi

Bu son bölümde, kelime sayımlarının ötesine geçerek bir belge koleksiyonundaki temel konuları ortaya çıkaracağız. Latent Dirichlet allocation olarak bilinen standart bir konu modelini kullanacağız.

Gizli Dirichlet Ayrımı (latent Dirichlet allocation)

Kelimelerin olasılıkları olarak konular

Konuları özetleme

Konuları görselleştirme

Belge-terim matrisleri

Bir DTM Oluşturma

Bir DTM'i matris olarak değerlendirme

Konu modellerini çalıştırma

Bir LDA Uydurmak

LDA çıktısını düzenleme

LDA çıktısını karşılaştırma

Konuları yorumlama

Üç konuyu adlandırma

Dört konuya ad verme

Kapanış

Konu Modellemesi

Airline tweets

Roomba reviews

Sosyal medyadan ürün incelemelerine kadar, metin; pazarlama analitiği de dahil olmak üzere birçok uygulamada giderek daha önemli bir veri türü haline geliyor. Birçok durumda, metin; düşük maliyeti ve güncelliği sayesinde diğer yapılandırılmamış veri türlerinin yerini alıyor. Ancak metnin sunduğu her şeyden yararlanmak için, metni nasıl ele alacağını, temizleyeceğini, özetleyeceğini ve modelleyeceğini bilmen gerekir. Bu derste, metinle hızlı ve kolay bir şekilde çalışmaya başlamak için en yeni tidy araçlarını kullanacaksın. Metni nasıl düzenleyip görselleştireceğini, duygu analizi yapmayı ve konu modellerini çalıştırıp yorumlamayı öğreneceksin.

Introduction to the Tidyverse

R'de tidy framework ile metin verilerini analiz etmeyi öğrenin: Duygu analizi, konu modelleme ve görselleştirme.

R ile Metin Analizine Giriş

R'de tidy framework kullanarak metin verilerini analiz edin.

Pazarlama Analitiği in R

Metin Madenciliği in R

Tokenlaştırma ve sayma

R ile Metin Analizine Giriş

Egzersiz talimatları

Uygulamalı etkileşimli egzersiz