Datensätze bearbeiten
Es wird wahrscheinlich viele Situationen geben, in denen du einen Datensatz bearbeiten musst, bevor du ihn in einer ML-Aufgabe verwenden kannst. Zwei typische Operationen sind Filtern und Auswählen (oder Slicen). Aufgrund der Größe dieser Datensätze nutzt Hugging Face Arrow-Dateitypen.
Das bedeutet, dass Bearbeitungen etwas anders ablaufen können, als du es gewohnt bist. Zum Glück gibt es dafür bereits passende Methoden!
Der Datensatz ist bereits unter wikipedia für dich geladen.
Diese Übung ist Teil des Kurses
Arbeiten mit Hugging Face
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])