1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

Počet znaků v ruských tweetech

V tomto cvičení máš k dispozici dataframe tweets, který obsahuje tweety spojené s ruskou Agenturou pro výzkum internetu a sestavené organizací FiveThirtyEight.

Tvým úkolem je vytvořit nový příznak 'char_count' v tweets, který vypočítá počet znaků každého tweetu. Zároveň vypočítej průměrnou délku tweetu. Tweety jsou dostupné v příznaku content dataframu tweets.

Měj na paměti, že se jedná o reálná data z Twitteru, a proto vždy hrozí, že mohou obsahovat vulgární nebo jinak nevhodný obsah (v tomto i v dalších cvičeních, která také využívají reálná data z Twitteru).

Pokyny

100 XP
  • Vytvoř nový příznak char_count tak, že aplikuješ len na příznak 'content' dataframu tweets.
  • Vypiš průměrný počet znaků tweetů výpočtem průměru příznaku 'char_count'.