1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech dla NLP w Pythonie

Connected

ćwiczenie

Tokenizacja przemówienia gettysburskiego

W tym ćwiczeniu przeprowadzisz tokenizację jednego z najsłynniejszych przemówień w historii: mowy gettysburskiej wygłoszonej przez prezydenta USA Abrahama Lincolna podczas amerykańskiej wojny secesyjnej.

Całe przemówienie jest dostępne jako ciąg znaków o nazwie gettysburg.

Instrukcje

100 XP
  • Wczytaj model en_core_web_sm za pomocą spacy.load().
  • Utwórz obiekt Doc o nazwie doc dla ciągu znaków gettysburg.
  • Używając wyrażenia listowego, przejdź pętlą po doc, aby wygenerować teksty tokenów.