TFIDF-Tibble vs. DTM
TFIDF kann für Dokumentähnlichkeit, Textklassifikation und weitere Aufgaben genutzt werden. Betrachte das Tibble left_right_tfidf und die Dokument-Term-Matrix left_right_matrix. Beide wurden in die Konsole geladen.
Welche der folgenden Aussagen ist wahr?
- A: Das Tibble enthält eine Zeile pro Dokument und eine Spalte für jedes Wort, das in allen Texten verwendet wird.
- B: Das Tibble enthält die Worthäufigkeiten, tf-, idf- und tfidf-Gewichte für jedes Wort in jedem Dokument.
- C: Das Tibble und die Matrix haben die gleiche Zeilenzahl.
- D: Die Spalten der Dokument-Term-Matrix können in Klassifikationsmodellen verwendet werden.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten