Charger du texte

L’analyse de texte commence par le chargement de données textuelles dans R, ce que nous allons faire avec la fonction read.csv().

Une bonne pratique consiste à examiner l’objet importé pour identifier la ou les colonnes importantes. La fonction str() est un moyen efficace de le faire.

Si le data frame contient des colonnes qui ne sont pas du texte, vous pouvez créer un nouvel objet en ne gardant que la bonne colonne de texte (par exemple, some_object$column_name).

Sachez qu’il s’agit de données réelles provenant de Twitter ; il existe donc un risque qu’elles contiennent des grossièretés ou d’autres contenus offensants (dans cet exercice, ainsi que dans les exercices suivants qui utilisent également de vraies données Twitter).

Cet exercice fait partie du cours

<cours>Text mining avec sac de mots en R</cours>

Voir le cours

Instructions de l’exercice

Les données ont été chargées pour vous et sont disponibles dans coffee_data_file.

Créez un nouvel objet tweets en utilisant read.csv() sur le fichier coffee_data_file, qui contient des tweets mentionnant le café.
Examinez l’objet tweets avec str() pour déterminer quelle colonne contient le texte à analyser.
Créez un nouvel objet coffee_tweets en ne conservant que la colonne de texte que vous avez identifiée. Pour cela, utilisez l’opérateur $ et le nom de la colonne.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import text data from CSV, no factors
tweets <- ___

# View the structure of tweets
___

# Isolate text from tweets
coffee_tweets <- ___

Modifier et exécuter le code