1. Learn
  2. /
  3. Курси
  4. /
  5. Передобробка для машинного навчання в Python

Connected

вправа

Дослідження текстових векторів, частина 1

Розширімо метод дослідження текстових векторів, який щойно розглянули, використовуючи tf/idf-вектори поля title з набору даних volunteer. У цій першій частині ми доповнимо функцію, про яку йшлося на слайдах. Функція повертатиме список чисел. У наступній вправі ми напишемо ще одну функцію, щоб зібрати найважливіші слова з усіх документів, видобути їх, а тоді використати цей список, щоб відфільтрувати наш вектор text_tfidf.

Інструкції

100 XP
  • Додайте параметри original_vocab для tfidf_vec.vocabulary_ і top_n.
  • Викличте pd.Series() для стисненого (zipped) словника. Так з ним буде простіше працювати.
  • Скористайтеся функцією .sort_values(), щоб відсортувати Series і зрізати індекс до top_n слів.
  • Викличте функцію, встановивши original_vocab=tfidf_vec.vocabulary_, vector_index=8, щоб отримати 9-й рядок, і top_n=3, щоб вибрати 3 слова з найбільшою вагою.