1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Čištění textu pomocí qdap

Balíček qdap nabízí další užitečné funkce pro čištění textu. Každá z nich má své uplatnění a jejich kombinací získáš ještě výkonnější nástroj.

  • bracketX(): Odstraní veškerý text v závorkách (např. „It's (so) cool" se změní na „It's cool")
  • replace_number(): Nahradí čísla jejich slovními ekvivalenty (např. „2" se změní na „two")
  • replace_abbreviation(): Nahradí zkratky jejich plnými ekvivalenty (např. „Sr" se změní na „Senior")
  • replace_contraction(): Převede stažené tvary zpět na jejich základní podobu (např. „shouldn't" se změní na „should not")
  • replace_symbol(): Nahradí běžné symboly jejich slovními ekvivalenty (např. „$" se změní na „dollar")

Pokyny

100 XP

Aplikuj následující funkce na objekt text z předchozího cvičení:

  • bracketX()
  • replace_number()
  • replace_abbreviation()
  • replace_contraction()
  • replace_symbol()