Charger du texte
L’analyse de texte commence par le chargement de données textuelles dans R, ce que nous allons faire avec la fonction read.csv().
Une bonne pratique consiste à examiner l’objet importé pour identifier la ou les colonnes importantes. La fonction str() est un moyen efficace de le faire.
Si le data frame contient des colonnes qui ne sont pas du texte, vous pouvez créer un nouvel objet en ne gardant que la bonne colonne de texte (par exemple, some_object$column_name).
Sachez qu’il s’agit de données réelles provenant de Twitter ; il existe donc un risque qu’elles contiennent des grossièretés ou d’autres contenus offensants (dans cet exercice, ainsi que dans les exercices suivants qui utilisent également de vraies données Twitter).
Cet exercice fait partie du cours
Text mining avec sac de mots en R
Instructions
Les données ont été chargées pour vous et sont disponibles dans coffee_data_file.
- Créez un nouvel objet
tweetsen utilisantread.csv()sur le fichiercoffee_data_file, qui contient des tweets mentionnant le café. - Examinez l’objet
tweetsavecstr()pour déterminer quelle colonne contient le texte à analyser. - Créez un nouvel objet
coffee_tweetsen ne conservant que la colonne de texte que vous avez identifiée. Pour cela, utilisez l’opérateur$et le nom de la colonne.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import text data from CSV, no factors
tweets <- ___
# View the structure of tweets
___
# Isolate text from tweets
coffee_tweets <- ___