1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza danych z mediów społecznościowych w R

Connected

ćwiczenie

Usuwanie adresów URL i znaków innych niż litery

Tekst tweetów publikowanych przez użytkowników Twittera jest nieustrukturyzowany, zaszumiony i surowy.

Zawiera emotikony, adresy URL i liczby. Te zbędne informacje trzeba wyczyścić przed analizą, aby uzyskać wiarygodne wyniki.

W tym ćwiczeniu usuniesz adresy URL i zastąpisz znaki inne niż litery spacjami.

Ramka danych twt_telmed zawierająca 1000 wyodrębnionych tweetów na temat "telemedicine" została wcześniej wczytana na potrzeby tego ćwiczenia.

Biblioteka qdapRegex została wcześniej wczytana na potrzeby tego ćwiczenia.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Wyodrębnij tekst tweetów z wcześniej wczytanego zbioru danych twt_telmed.