De 20 Newsgroups-gegevensset verkennen
In deze oefening krijg je een voorbeeld van de 20 Newsgroups-gegevensset, opgehaald met de functie fetch_20newsgroups() uit sklearn.datasets, gefilterd op drie klassen: sci.space, alt.atheism en soc.religion.christian.
De gegevensset is geladen in de variabele news_dataset. De attributen zijn afgedrukt zodat je ze in de console kunt verkennen.
Voor meer details over het gebruik van deze functie, zie de Sklearn-documentatie.
Je gaat de teksten tokenizen en de labels one-hot encoden, stap voor stap, zodat je ziet hoe de transformaties plaatsvinden.
Deze oefening maakt deel uit van de cursus
Recurrent Neural Networks (RNN's) voor taalmodellen met Keras
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# See example article
print(news_dataset.____[5])