Exploration de l'ensemble de données 20 News Groups
Dans cet exercice, vous recevrez un échantillon de l'ensemble de données 20 News Groups obtenu à l'aide de la fonction fetch_20newsgroups()
à partir de sklearn.datasets
, en filtrant uniquement trois classes : sci.space
, alt.atheism
et soc.religion.christian
.
L'ensemble de données est chargé dans la variable news_dataset
. Ses attributs sont affichés afin que vous puissiez les explorer sur la console.
Pour plus d'informations sur l'utilisation de cette fonction, veuillez consulter la documentation Sklearn.
Vous allez tokeniser les textes et encoder les étiquettes en one-hot étape par étape afin de comprendre comment les transformations s'effectuent.
Cet exercice fait partie du cours
Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# See example article
print(news_dataset.____[5])