Дослідження текстових векторів, частина 1

Розширімо метод дослідження текстових векторів, який щойно розглянули, використовуючи tf/idf-вектори поля title з набору даних volunteer. У цій першій частині ми доповнимо функцію, про яку йшлося на слайдах. Функція повертатиме список чисел. У наступній вправі ми напишемо ще одну функцію, щоб зібрати найважливіші слова з усіх документів, видобути їх, а тоді використати цей список, щоб відфільтрувати наш вектор text_tfidf.

Додайте параметри original_vocab для tfidf_vec.vocabulary_ і top_n.
Викличте pd.Series() для стисненого (zipped) словника. Так з ним буде простіше працювати.
Скористайтеся функцією .sort_values(), щоб відсортувати Series і зрізати індекс до top_n слів.
Викличте функцію, встановивши original_vocab=tfidf_vec.vocabulary_, vector_index=8, щоб отримати 9-й рядок, і top_n=3, щоб вибрати 3 слова з найбільшою вагою.

вправа

Дослідження текстових векторів, частина 1

Інструкції

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}вправа

Інструкції

вправа