Manipular conjuntos de datos
Probablemente habrá muchas ocasiones en las que necesites manipular un conjunto de datos antes de utilizarlo en una tarea de ML. Dos manipulaciones habituales son filtrar y seleccionar (o trocear). Dado el tamaño de estos conjuntos de datos, Cara Abrazada aprovecha los tipos de archivo flecha.
Esto significa que realizar manipulaciones es ligeramente diferente a lo que puedes estar acostumbrado. Afortunadamente, ¡ya existen métodos para ayudarte con esto!
El conjunto de datos ya está cargado para ti en wikipedia
.
Este ejercicio forma parte del curso
Trabajar con Cara Abrazada
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])