1. Learn
  2. /
  3. Kurser
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

övning

Analiza wektorów

Aby lepiej zrozumieć, jak działają wektory, przyjrzysz się im bliżej, konwertując je na ramki danych pandas.

W tym ćwiczeniu skorzystasz z tych samych struktur danych, które utworzyłeś w dwóch poprzednich ćwiczeniach (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), a także z biblioteki pandas zaimportowanej jako pd.

Instruktioner

100 XP
  • Utwórz ramki danych count_df i tfidf_df, używając pd.DataFrame() – jako pierwszy argument podaj wartości, a jako drugi – kolumny (czyli cechy).
    • Wartości możesz uzyskać za pomocą atrybutu .A odpowiednio dla count_train i tfidf_train.
    • Kolumny możesz uzyskać, używając metody .get_feature_names() na count_vectorizer i tfidf_vectorizer.
  • Wyświetl początek każdej ramki danych, aby zbadać jej strukturę. Zostało to już za ciebie zrobione.
  • Sprawdź, czy nazwy kolumn są takie same w obu ramkach danych – utwórz nowy obiekt difference, który pokaże różnicę między kolumnami count_df a kolumnami tfidf_df. Dostęp do kolumn możesz uzyskać za pomocą atrybutu .columns ramki danych. Odejmij zbiór tfidf_df.columns od zbioru count_df.columns.
  • Sprawdź, czy obie ramki danych są równoważne, używając metody .equals() na count_df z tfidf_df jako argumentem.