Étant donné que le texte est une donnée non structurée, il faut le préparer pour l’amener dans une forme analysable. Dans ce chapitre, vous apprendrez à structurer le texte en le tokenisant, en le nettoyant et en le traitant comme une donnée catégorielle.

Le texte comme données

Données de tweets sur les compagnies aériennes

Synthèses par groupe

Compter des données catégorielles

Compter les types d’utilisateurs

Résumer les types d’utilisateurs

Tokenisation et nettoyage

Tokenisation et comptage

Nettoyer et compter

Préparer des textes

Les décomptes, c’est bien, mais les visualisations, c’est mieux. Dans ce chapitre, vous apprendrez à appliquer ce que vous connaissez de ggplot2 à des données textuelles au format tidy.

Visualiser les occurrences de mots

Visualiser les réclamations

Visualiser les non-réclamations

Améliorer les graphiques de décompte de mots

Ajouter des mots vides personnalisés

Visualiser les occurrences de mots avec des facteurs

Créer des graphiques de comptage avec facettes

Compter par produit et réordonner

Visualiser les occurrences de mots avec des facettes

Tracer des nuages de mots

Créer un nuage de mots

Ajouter une touche de couleur

Visualiser des textes

Les décomptes de mots et les visualisations donnent une idée du contenu, mais nous pouvons aller plus loin. Dans ce chapitre, nous dépassons les simples décomptes pour analyser le sentiment, ou valence émotionnelle, d’un texte.

Lexiques de sentiments

Compter les sentiments du NRC

Visualiser les sentiments NRC

Assembler des dictionnaires

Compter les sentiments

Visualiser le sentiment

Améliorer l’analyse de sentiments

S’entraîner à remodeler les données

S’entraîner aux synthèses groupées

Visualiser le sentiment par type de réclamation

Analyse de sentiment

Dans ce dernier chapitre, nous allons au-delà des décomptes de mots pour révéler les sujets sous-jacents d’un ensemble de documents. Nous utiliserons un modèle de sujets standard appelé latent Dirichlet allocation.

Latent Dirichlet allocation

Sujets en tant que probabilités de mots

Résumer les sujets

Visualiser des thèmes

Matrices termes-documents

Créer une DTM

Évaluer une DTM comme une matrice

Exécuter des modèles thématiques

Ajuster une LDA

Mettre en ordre la sortie LDA

Comparer les sorties de LDA

Interpréter les sujets

Nommer trois sujets

Nommer quatre sujets

Conclusion

Modélisation de sujets

Airline tweets

Roomba reviews

Des réseaux sociaux aux avis produits, le texte est un type de données de plus en plus important dans de nombreuses applications, y compris en marketing analytics. Dans bien des cas, le texte remplace d’autres formes de données non structurées, car il est peu coûteux et à jour. Cependant, pour tirer pleinement parti de ce que le texte peut offrir, vous devez savoir comment le conceptualiser, le nettoyer, le résumer et le modéliser. Dans ce cours, vous utiliserez les tout derniers outils tidy pour démarrer rapidement et facilement avec le texte. Vous apprendrez à préparer et à visualiser du texte, à réaliser une analyse de sentiment, puis à exécuter et interpréter des modèles de sujets.

Introduction to the Tidyverse

Découvrez comment analyser des données textuelles avec le framework tidy en R : analyse de sentiment, modélisation de sujets.

Conclusion

Create Your Free Account