1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech dla NLP w Pythonie

Connected

ćwiczenie

Czyszczenie przemówień TED w ramce danych

W tym ćwiczeniu wrócimy do przemówień TED z pierwszego rozdziału. Masz do dyspozycji ramkę danych ted zawierającą 5 przemówień TED. Twoim zadaniem jest wyczyszczenie tych tekstów przy użyciu omówionych wcześniej technik – napisz funkcję preprocess i zastosuj ją do cechy transcript w tej ramce danych.

Lista stopwords jest dostępna jako stopwords.

Instrukcje

100 XP
  • Wygeneruj obiekt Doc dla zmiennej text. Na razie pomiń argument disable.
  • Wygeneruj lematy za pomocą wyrażenia listowego, korzystając z atrybutu lemma_.
  • Usuń znaki niealfabetyczne, używając isalpha() w warunku if.