Data pre-processen
Je hebt geleerd wat er anders is aan het pre-processen van data voor multi-class classification. Laten we dat nu toepassen door de data voor te bereiden voor het bouwen van een eenvoudig multi-class classificatiemodel.
De gegevensset is geladen in de variabele news_dataset en heeft de volgende attributen:
news_dataset.data: array met tekstennews_dataset.target: array met doelfunctiecategorieën als numerieke indexen
De voorbeelddata bevat 5.000 observaties.
Deze oefening maakt deel uit van de cursus
Recurrent Neural Networks (RNN's) voor taalmodellen met Keras
Oefeninstructies
- Instantier de
Tokenizer-klasse in de variabeletokenizer. - Fit de variabele
tokenizerop de tekstdata. - Gebruik de methode
.texts_to_sequences()op de tekstdata. - Gebruik de functie
to_categorical()om de doelindexen voor te bereiden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)
# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)
# Prepare the labels
target_labels = to_categorical(____)
# Print the shapes
print(prep_data.shape)
print(target_labels.shape)