1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Analýza dat ze sociálních médií v R

Connected

cvičení

Odstranění URL adres a znaků jiných než písmena

Text tweetů, které uživatelé na Twitteru sdílejí, je nestrukturovaný, zašuměný a v surové podobě.

Obsahuje emotikony, URL adresy a čísla. Tyto nadbytečné informace je před analýzou potřeba vyčistit, aby výsledky byly spolehlivé.

V tomto cvičení odstraníš URL adresy a nahradíš znaky jiné než písmena mezerami.

Dataový rámec twt_telmed s 1 000 extrahovanými tweety na téma "telemedicine" je pro toto cvičení předem načtený.

Knihovna qdapRegex je pro toto cvičení předem načtená.

Pokyny 1/3

undefined XP
    1
    2
    3
  • Extrahuj text tweetů z předem načteného datasetu twt_telmed.