Aan de slagGa gratis aan de slag

Data pre-processen

Je hebt geleerd wat er anders is aan het pre-processen van data voor multi-class classification. Laten we dat nu toepassen door de data voor te bereiden voor het bouwen van een eenvoudig multi-class classificatiemodel.

De gegevensset is geladen in de variabele news_dataset en heeft de volgende attributen:

  • news_dataset.data: array met teksten
  • news_dataset.target: array met doelfunctiecategorieën als numerieke indexen

De voorbeelddata bevat 5.000 observaties.

Deze oefening maakt deel uit van de cursus

Recurrent Neural Networks (RNN's) voor taalmodellen met Keras

Cursus bekijken

Oefeninstructies

  • Instantier de Tokenizer-klasse in de variabele tokenizer.
  • Fit de variabele tokenizer op de tekstdata.
  • Gebruik de methode .texts_to_sequences() op de tekstdata.
  • Gebruik de functie to_categorical() om de doelindexen voor te bereiden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)

# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)

# Prepare the labels
target_labels = to_categorical(____)

# Print the shapes
print(prep_data.shape)
print(target_labels.shape)
Code bewerken en uitvoeren