Stap 2: Bronnen van tekst identificeren
In deze korte oefening laad en bekijk je een kleine corpus met recensies van huurwoningen rond Boston. Hopelijk ken je read.csv() al, waarmee je een door komma’s gescheiden bestand kunt laden. Dit lijkt misschien saai, maar het doel van dit hoofdstuk is dat je een complete workflow van begin tot eind doorloopt, dus laten we beginnen met het inladen van data!
Vervolgens pas je eenvoudig str() toe om de structuur van het gegevensframe te bekijken. Het is een handige functie om compact de beginwaarden en klassentypes van vectoren te tonen.
Tot slot gebruik je dim() om de dimensies van het gegevensframe af te drukken. Voor een gegevensframe print je console het aantal rijen en het aantal kolommen.
Andere functies zoals head(), tail() of summary() worden vaak gebruikt voor data-exploratie, maar in dit geval houden we het kort zodat je snel toekomt aan de leuke sentimentanalyse!
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in R
Oefeninstructies
De recensies van huurwoningen in Boston staan in een CSV-bestand dat wordt aangewezen door de vooraf gedefinieerde variabele bos_reviews_file.
- Laad de woningrecensies uit
bos_reviews_filemetread.csv(). Noem het objectbos_reviews. - Bekijk de structuur van het gegevensframe met de base-functie
str()toegepast opbos_reviews. - Kom erachter met hoeveel recensies je werkt door
dim()aan te roepen opbos_reviews.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# bos_reviews_file has been pre-defined
bos_reviews_file
# load raw text
bos_reviews <- ___
# Structure
___
# Dimensions
___