Poiché il testo è un dato non strutturato, è necessaria una certa manipolazione per portarlo in una forma analizzabile. In questo capitolo imparerai ad aggiungere struttura al testo tramite tokenizzazione, pulizia e trattando il testo come dato categoriale.

Testo come dati

Dati dei tweet sulle compagnie aeree

Riepiloghi raggruppati

Conteggio dei dati categoriali

Conteggio dei tipi di utenti

Riepilogare i tipi di utenti

Tokenizzazione e pulizia

Tokenizzazione e conteggio

Pulizia e conteggio

Manipolare il testo

I conteggi sono utili, ma le visualizzazioni sono meglio. In questo capitolo imparerai ad applicare ciò che conosci di ggplot2 ai dati testuali in formato tidy.

Rappresentare i conteggi delle parole

Visualizzare i reclami

Visualizzare i non-reclami

Migliorare i grafici dei conteggi di parole

Aggiungere stop word personalizzate

Visualizzare i conteggi delle parole usando i fattori

Suddividere in facet i grafici dei conteggi di parole

Conteggio per prodotto e riordinamento

Visualizzare i conteggi delle parole con facet

Creare word cloud

Creare una word cloud

Un tocco di colore

Visualizzare il testo

Sebbene i conteggi di parole e le visualizzazioni dicano qualcosa sul contenuto, possiamo fare di più. In questo capitolo andiamo oltre i soli conteggi per analizzare il sentiment, ovvero la valenza emotiva, del testo.

Dizionari di sentiment

Conteggio dei sentimenti NRC

Visualizzare i sentiment NRC

Aggiungere dizionari

Conteggio dei sentiment

Visualizzare il sentiment

Migliorare l'analisi del sentiment

Esercizio sul reshaping dei dati

Esercitati con le sintesi raggruppate

Visualizzare il sentiment per tipo di reclamo

Analisi del sentiment

In questo capitolo finale andiamo oltre i conteggi di parole per scoprire gli argomenti sottostanti in una raccolta di documenti. Useremo un modello di topic standard noto come latent Dirichlet allocation.

Latent Dirichlet allocation

Argomenti come probabilità delle parole

Riepilogare gli argomenti

Visualizzare gli argomenti

Matrici documento-termine

Creare una DTM

Valutare una DTM come matrice

Esecuzione di modelli di topic

Adattare un LDA

Mettere in ordine l'output LDA

Confrontare l'output di LDA

Interpretare gli argomenti

Dare un nome a tre topic

Dare un nome a quattro topic

Riepilogo

Topic modeling

Airline tweets

Roomba reviews

Dai social media alle recensioni di prodotto, il testo è un tipo di dato sempre più importante in molte applicazioni, inclusa la marketing analytics. In molti casi, il testo sta sostituendo altre forme di dati non strutturati perché è economico e aggiornato. Tuttavia, per sfruttare al massimo tutto ciò che il testo può offrire, devi sapere come concepirlo, pulirlo, riassumerlo e modellarlo. In questo corso userai i più recenti strumenti tidy per iniziare rapidamente e con facilità a lavorare con il testo. Imparerai a manipolare e visualizzare il testo, eseguire un'analisi del sentiment e avviare e interpretare modelli di topic.

Introduction to the Tidyverse

Scopri come analizzare dati testuali con il framework tidy in R: analisi sentimenti, modelli e visualizzazioni.

Introduzione all'analisi del testo in R

Analizza i dati di testo in R usando il framework tidy.

Analisi di marketing in R

Estrazione del testo in R

Tokenizzazione e conteggio

Introduzione all'analisi del testo in R

Istruzioni dell'esercizio

esercizio interattivo pratico