CommencerCommencer gratuitement

Charger du texte

L’analyse de texte commence par le chargement de données textuelles dans R, ce que nous allons faire avec la fonction read.csv().

Une bonne pratique consiste à examiner l’objet importé pour identifier la ou les colonnes importantes. La fonction str() est un moyen efficace de le faire.

Si le data frame contient des colonnes qui ne sont pas du texte, vous pouvez créer un nouvel objet en ne gardant que la bonne colonne de texte (par exemple, some_object$column_name).

Sachez qu’il s’agit de données réelles provenant de Twitter ; il existe donc un risque qu’elles contiennent des grossièretés ou d’autres contenus offensants (dans cet exercice, ainsi que dans les exercices suivants qui utilisent également de vraies données Twitter).

Cet exercice fait partie du cours

Text mining avec sac de mots en R

Afficher le cours

Instructions

Les données ont été chargées pour vous et sont disponibles dans coffee_data_file.

  • Créez un nouvel objet tweets en utilisant read.csv() sur le fichier coffee_data_file, qui contient des tweets mentionnant le café.
  • Examinez l’objet tweets avec str() pour déterminer quelle colonne contient le texte à analyser.
  • Créez un nouvel objet coffee_tweets en ne conservant que la colonne de texte que vous avez identifiée. Pour cela, utilisez l’opérateur $ et le nom de la colonne.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import text data from CSV, no factors
tweets <- ___

# View the structure of tweets
___

# Isolate text from tweets
coffee_tweets <- ___
Modifier et exécuter le code