Bouw een corpus en zet om naar kleine letters

Een corpus is een lijst met tekstdocumenten. Je moet de tweet-tekst omzetten naar een corpus om de volgende stappen in tekstverwerking mogelijk te maken.

Bij tekstanalyse wil je voorkomen dat een woord als twee verschillende woorden wordt geteld omdat de hoofd-/kleine letters verschillen. Daarom moet je tekst omzetten naar kleine letters.

In deze oefening maak je een tekstcorpus en zet je alle tekens om naar kleine letters.

De opgeschoonde tekstuitvoer van de vorige oefening is vooraf geladen als twts_gsub.

De bibliotheek tm is voor deze oefening vooraf geladen.

Deze oefening maakt deel uit van de cursus

Socialemediagegevens analyseren in R

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Convert text in "twt_gsub" dataset to a text corpus and view output
twt_corpus <- twt_gsub %>% 
                ___() %>% 
                ___() 
head(twt_corpus$___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Socialemediagegevens analyseren in R

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Ga aan de slag met de kracht van Twitter-gegevens en ontdek wat je kunt bereiken met socialmedia-analyse. In dit hoofdstuk extraheer je je eerste set tweets met de Twitter API en functies uit de krachtige ‘rtweet’-bibliotheek. Vervolgens verken je hoe je de onderdelen van je geëxtraheerde Twitter-gegevens kunt gebruiken om inzichten te verkrijgen voor socialmedia-analyse.

Exercise 1: Twitter-gegevens analyseren Exercise 2: Kracht van twitterdata Exercise 3: Voor- en nadelen van Twitter-data Exercise 4: Twitter-gegevens ophalen Exercise 5: Vereisten om de R-omgeving in te richten Exercise 6: Tweets zoeken en extraheren Exercise 7: Zoek en haal tijdlijnen op Exercise 8: Onderdelen van Twitter-gegevens Exercise 9: Interesse van gebruikers en aantal tweets Exercise 10: Volgersaantal vergelijken Exercise 11: Aantal retweets

Tijd om de diepte in te gaan. Leer hoe je filters op tweets toepast en Twitter-gebruikersgegevens analyseert met de gulden snede en de Twitter-lijsten waarop ze geabonneerd zijn. Je leert ook hoe je trending topics extraheert en Twitter-gegevens in de tijd analyseert om interessante inzichten te ontdekken.

Exercise 1: Tweets filteren Exercise 2: Filteren op originele tweets Exercise 3: Filteren op taal van tweets Exercise 4: Filteren op populariteit van tweets Exercise 5: Analyse van Twitter-gebruikers Exercise 6: Gebruikersinformatie extraheren Exercise 7: Verken gebruikers op basis van de golden ratio Exercise 8: Abonnees op Twitter-lijsten Exercise 9: Twitter-trends Exercise 10: Beschikbare trends Exercise 11: Trends op landnaam Exercise 12: Trends per stad en meest getweete trends Exercise 13: Twitter-gegevens in de tijd plotten Exercise 14: Frequentie van tweets visualiseren Exercise 15: Maak tijdreeksobjecten Exercise 16: Vergelijk tweetfrequenties voor twee merken

Een beeld zegt meer dan duizend woorden! In dit hoofdstuk ontdek je hoe je tekst uit tweets visualiseert met staafdiagrammen en wordclouds. Je leert hoe je tweet-tekst verwerkt en een schone tekstcorpus voorbereidt voor analyse. Stel je voor dat je kernonderwerpen uit discussies en de percepties van mensen over een onderwerp of merk kunt afleiden uit de tweets die ze delen. Precies dat ga je doen met topic modeling en sentimentsanalyse.

Exercise 1: Twitter-tekst verwerken Exercise 2: Verwijder URL's en andere tekens dan letters Exercise 3: Bouw een corpus en zet om naar kleine letters

Huidige oefening

Exercise 4: Stopwoorden en extra spaties verwijderen Exercise 5: Visualiseer populaire termen Exercise 6: Aangepaste stopwoorden verwijderen Exercise 7: Visualiseer populaire termen met staafdiagrammen Exercise 8: Woordwolken voor visualisatie Exercise 9: Topic modeling van tweets Exercise 10: Het LDA-algoritme Exercise 11: Maak een document-term-matrix Exercise 12: Maak een topicmodel Exercise 13: Sentimentanalyse van Twitter Exercise 14: Haal sentimentscores op Exercise 15: Voer sentimentanalyse uit

Twitter-gebruikers tweeten, liken, volgen en retweeten, waardoor complexe netwerkstructuren ontstaan. In dit laatste hoofdstuk leer je deze netwerkstructuren analyseren en de relaties tussen individuele personen visualiseren als een retweetnetwerk. Door geolocatiegegevens uit tweets te halen, ontdek je ook hoe je tweetlocaties op een kaart weergeeft en krachtige vragen beantwoordt, zoals: welke staten of landen praten het meest over jouw merk? Geografische gegevens voegen een nieuwe dimensie toe aan je Twitter-gegevensanalyse.

Exercise 1: Netwerkanalyse van Twitter Exercise 2: Data voorbereiden voor een retweetnetwerk Exercise 3: Maak een retweetnetwerk Exercise 4: Maten voor netwerkcentraliteit Exercise 5: Out-degree-scores berekenen Exercise 6: Bereken de in-degree-scores Exercise 7: Bereken de betweenness-scores Exercise 8: Twitter-netwerken visualiseren Exercise 9: Maak een netwerkplot met attributen Exercise 10: Netwerkplot op basis van centraliteitsmaat Exercise 11: Aantal volgers om de netwerkplot te verbeteren Exercise 12: Twitter-gegevens op de kaart zetten Exercise 13: Geolocatiecoördinaten extraheren Exercise 14: Twitter-data op de kaart Exercise 15: Cursusafsluiting