Stap 2: Bronnen van tekst identificeren

In deze korte oefening laad en bekijk je een kleine corpus met recensies van huurwoningen rond Boston. Hopelijk ken je read.csv() al, waarmee je een door komma’s gescheiden bestand kunt laden. Dit lijkt misschien saai, maar het doel van dit hoofdstuk is dat je een complete workflow van begin tot eind doorloopt, dus laten we beginnen met het inladen van data!

Vervolgens pas je eenvoudig str() toe om de structuur van het gegevensframe te bekijken. Het is een handige functie om compact de beginwaarden en klassentypes van vectoren te tonen.

Tot slot gebruik je dim() om de dimensies van het gegevensframe af te drukken. Voor een gegevensframe print je console het aantal rijen en het aantal kolommen.

Andere functies zoals head(), tail() of summary() worden vaak gebruikt voor data-exploratie, maar in dit geval houden we het kort zodat je snel toekomt aan de leuke sentimentanalyse!

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in R

Bekijk cursus

Oefeninstructies

De recensies van huurwoningen in Boston staan in een CSV-bestand dat wordt aangewezen door de vooraf gedefinieerde variabele bos_reviews_file.

Laad de woningrecensies uit bos_reviews_file met read.csv(). Noem het object bos_reviews.
Bekijk de structuur van het gegevensframe met de base-functie str() toegepast op bos_reviews.
Kom erachter met hoeveel recensies je werkt door dim() aan te roepen op bos_reviews.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# bos_reviews_file has been pre-defined
bos_reviews_file

# load raw text
bos_reviews <- ___

# Structure
___

# Dimensions
___

Code bewerken en uitvoeren