1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Prozkoumání vektorů

Abys lépe pochopil/a, jak vektory fungují, prozkoumáš je převodem na DataFramy z knihovny pandas.

Budeš pracovat se stejnými datovými strukturami, které jsi vytvořil/a v předchozích dvou cvičeních (count_train, count_vectorizer, tfidf_train, tfidf_vectorizer), a také s knihovnou pandas, která je importovaná jako pd.

Pokyny

100 XP
  • Vytvoř DataFramy count_df a tfidf_df pomocí pd.DataFrame() — jako první argument zadej hodnoty a jako druhý sloupce (příznaky).
    • Hodnoty získáš pomocí atributu .A příslušného objektu — count_train, resp. tfidf_train.
    • Sloupce získáš pomocí metody .get_feature_names() objektů count_vectorizer a tfidf_vectorizer.
  • Vypiš záhlaví každého DataFramu a prozkoumej jeho strukturu. Tento krok je již hotový.
  • Otestuj, zda mají oba DataFramy stejné názvy sloupců — vytvoř nový objekt difference, který zachytí rozdíl mezi sloupci count_df a tfidf_df. Sloupce získáš pomocí atributu .columns DataFramu. Od setu count_df.columns odečti set tfidf_df.columns.
  • Ověř, zda jsou oba DataFramy shodné, pomocí metody .equals() zavolané na count_df s argumentem tfidf_df.