or
Cet exercice fait partie du cours
Étant donné que le texte est une donnée non structurée, il faut le préparer pour l’amener dans une forme analysable. Dans ce chapitre, vous apprendrez à structurer le texte en le tokenisant, en le nettoyant et en le traitant comme une donnée catégorielle.
Les décomptes, c’est bien, mais les visualisations, c’est mieux. Dans ce chapitre, vous apprendrez à appliquer ce que vous connaissez de ggplot2 à des données textuelles au format tidy.
Les décomptes de mots et les visualisations donnent une idée du contenu, mais nous pouvons aller plus loin. Dans ce chapitre, nous dépassons les simples décomptes pour analyser le sentiment, ou valence émotionnelle, d’un texte.
Dans ce dernier chapitre, nous allons au-delà des décomptes de mots pour révéler les sujets sous-jacents d’un ensemble de documents. Nous utiliserons un modèle de sujets standard appelé latent Dirichlet allocation.
Exercice en cours