1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

Počet slov v TED talcích

ted je dataframe obsahující přepisy 500 TED talků. Tvým úkolem je vytvořit nový příznak word_count, který bude obsahovat přibližný počet slov každého talku. Dále budeš potřebovat vypočítat průměrný počet slov napříč všemi talky. Přepisy jsou dostupné jako příznak transcript v dataframu ted.

K splnění tohoto úkolu budeš muset definovat funkci count_words, která přijme řetězec jako argument a vrátí počet slov v tomto řetězci. Tuto funkci pak aplikuješ na příznak transcript v dataframu ted, čímž vytvoříš nový příznak word_count, a nakonec vypočítáš jeho průměr.

Pokyny

100 XP
  • Rozděl string na seznam slov pomocí metody split().
  • Vrať počet prvků v words pomocí funkce len().
  • Aplikuj svoji funkci na sloupec transcript v dataframu ted a vytvoř nový příznak word_count.
  • Vypočítej průměrný počet slov v talkách pomocí metody mean().