Stopwoorden en extra spaties verwijderen

Een tekstcorpus bevat meestal veel algemene woorden zoals "a", "an", "the", "of" en "but". In natural language processing noemen we dit stopwoorden.

Stopwoorden verwijder je doorgaans tijdens de tekstverwerking, zodat je je kunt richten op belangrijkere woorden in het corpus om inzichten te krijgen.

Daarnaast moeten de extra spaties die ontstaan bij het verwijderen van speciale tekens, interpunctie, cijfers en stopwoorden uit het corpus worden gehaald.

Het corpus dat je in de vorige oefening hebt gemaakt is al ingeladen als twt_corpus_lwr.

De bibliotheek tm is voor deze oefening vooraf geladen.

Deze oefening maakt deel uit van de cursus

Socialemediagegevens analyseren in R

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Remove English stop words from the corpus and view the corpus 
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Socialemediagegevens analyseren in R

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Ga aan de slag met de kracht van Twitter-gegevens en ontdek wat je kunt bereiken met socialmedia-analyse. In dit hoofdstuk extraheer je je eerste set tweets met de Twitter API en functies uit de krachtige ‘rtweet’-bibliotheek. Vervolgens verken je hoe je de onderdelen van je geëxtraheerde Twitter-gegevens kunt gebruiken om inzichten te verkrijgen voor socialmedia-analyse.

Exercise 1: Twitter-gegevens analyseren Exercise 2: Kracht van twitterdata Exercise 3: Voor- en nadelen van Twitter-data Exercise 4: Twitter-gegevens ophalen Exercise 5: Vereisten om de R-omgeving in te richten Exercise 6: Tweets zoeken en extraheren Exercise 7: Zoek en haal tijdlijnen op Exercise 8: Onderdelen van Twitter-gegevens Exercise 9: Interesse van gebruikers en aantal tweets Exercise 10: Volgersaantal vergelijken Exercise 11: Aantal retweets

Tijd om de diepte in te gaan. Leer hoe je filters op tweets toepast en Twitter-gebruikersgegevens analyseert met de gulden snede en de Twitter-lijsten waarop ze geabonneerd zijn. Je leert ook hoe je trending topics extraheert en Twitter-gegevens in de tijd analyseert om interessante inzichten te ontdekken.

Exercise 1: Tweets filteren Exercise 2: Filteren op originele tweets Exercise 3: Filteren op taal van tweets Exercise 4: Filteren op populariteit van tweets Exercise 5: Analyse van Twitter-gebruikers Exercise 6: Gebruikersinformatie extraheren Exercise 7: Verken gebruikers op basis van de golden ratio Exercise 8: Abonnees op Twitter-lijsten Exercise 9: Twitter-trends Exercise 10: Beschikbare trends Exercise 11: Trends op landnaam Exercise 12: Trends per stad en meest getweete trends Exercise 13: Twitter-gegevens in de tijd plotten Exercise 14: Frequentie van tweets visualiseren Exercise 15: Maak tijdreeksobjecten Exercise 16: Vergelijk tweetfrequenties voor twee merken

Een beeld zegt meer dan duizend woorden! In dit hoofdstuk ontdek je hoe je tekst uit tweets visualiseert met staafdiagrammen en wordclouds. Je leert hoe je tweet-tekst verwerkt en een schone tekstcorpus voorbereidt voor analyse. Stel je voor dat je kernonderwerpen uit discussies en de percepties van mensen over een onderwerp of merk kunt afleiden uit de tweets die ze delen. Precies dat ga je doen met topic modeling en sentimentsanalyse.

Exercise 1: Twitter-tekst verwerken Exercise 2: Verwijder URL's en andere tekens dan letters Exercise 3: Bouw een corpus en zet om naar kleine letters Exercise 4: Stopwoorden en extra spaties verwijderen

Huidige oefening

Exercise 5: Visualiseer populaire termen Exercise 6: Aangepaste stopwoorden verwijderen Exercise 7: Visualiseer populaire termen met staafdiagrammen Exercise 8: Woordwolken voor visualisatie Exercise 9: Topic modeling van tweets Exercise 10: Het LDA-algoritme Exercise 11: Maak een document-term-matrix Exercise 12: Maak een topicmodel Exercise 13: Sentimentanalyse van Twitter Exercise 14: Haal sentimentscores op Exercise 15: Voer sentimentanalyse uit

Twitter-gebruikers tweeten, liken, volgen en retweeten, waardoor complexe netwerkstructuren ontstaan. In dit laatste hoofdstuk leer je deze netwerkstructuren analyseren en de relaties tussen individuele personen visualiseren als een retweetnetwerk. Door geolocatiegegevens uit tweets te halen, ontdek je ook hoe je tweetlocaties op een kaart weergeeft en krachtige vragen beantwoordt, zoals: welke staten of landen praten het meest over jouw merk? Geografische gegevens voegen een nieuwe dimensie toe aan je Twitter-gegevensanalyse.

Exercise 1: Netwerkanalyse van Twitter Exercise 2: Data voorbereiden voor een retweetnetwerk Exercise 3: Maak een retweetnetwerk Exercise 4: Maten voor netwerkcentraliteit Exercise 5: Out-degree-scores berekenen Exercise 6: Bereken de in-degree-scores Exercise 7: Bereken de betweenness-scores Exercise 8: Twitter-netwerken visualiseren Exercise 9: Maak een netwerkplot met attributen Exercise 10: Netwerkplot op basis van centraliteitsmaat Exercise 11: Aantal volgers om de netwerkplot te verbeteren Exercise 12: Twitter-gegevens op de kaart zetten Exercise 13: Geolocatiecoördinaten extraheren Exercise 14: Twitter-data op de kaart Exercise 15: Cursusafsluiting