1. Learn
  2. /
  3. Courses
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

Exercise

Czyszczenie tekstu z pakietem qdap

Pakiet qdap oferuje wiele przydatnych funkcji do czyszczenia tekstu. Każda z nich ma swoje zastosowanie, a ich połączenie daje szczególnie dobre efekty.

  • bracketX(): usuwa cały tekst w nawiasach (np. „It's (so) cool" staje się „It's cool")
  • replace_number(): zamienia liczby na ich słowne odpowiedniki (np. „2" staje się „two")
  • replace_abbreviation(): rozwija skróty do pełnej formy (np. „Sr" staje się „Senior")
  • replace_contraction(): rozpisuje formy skrócone na pełne wyrazy (np. „shouldn't" staje się „should not")
  • replace_symbol(): zamienia popularne symbole na ich słowne odpowiedniki (np. „$" staje się „dollar")

Instructions

100 XP

Zastosuj poniższe funkcje do obiektu text z poprzedniego ćwiczenia:

  • bracketX()
  • replace_number()
  • replace_abbreviation()
  • replace_contraction()
  • replace_symbol()