1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

Čištění TED talks v dataframu

V tomto cvičení se vrátíme k TED Talks z první kapitoly. Máš k dispozici dataframe ted s 5 TED Talks. Tvým úkolem je tyto přednášky vyčistit pomocí technik, které jsme probírali dříve – napíšeš funkci preprocess a aplikuješ ji na sloupec transcript v dataframu.

Seznam stopwords je dostupný jako stopwords.

Pokyny

100 XP
  • Vytvoř objekt Doc pro text. Argument disable teď ignoruj.
  • Vytvoř lemmata pomocí list comprehension s využitím atributu lemma_.
  • Odstraň nealfabetické znaky pomocí isalpha() v podmínce if.