Aan de slagGa gratis aan de slag

Tekst naar DataFrame

Nu je op tellingen gebaseerde features in een array hebt gegenereerd, moet je ze herformatteren zodat ze kunnen worden gecombineerd met de rest van de gegevensset. Dit kun je doen door de array om te zetten naar een pandas DataFrame, met de featurenamen die je eerder vond als kolomnamen, en deze vervolgens te concateneren met het originele DataFrame.

De numpy-array (cv_array) en de vectorizer (cv) die je in de vorige oefening hebt gefit, zijn beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Maak een DataFrame cv_df met cv_array als waarden en de featurenamen als kolomnamen.
  • Voeg de prefix Counts_ toe aan de kolomnamen zodat je ze makkelijk kunt herkennen.
  • Concateneer dit DataFrame (cv_df) kolomsgewijs met het originele DataFrame (speech_df).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a DataFrame with these features
cv_df = pd.DataFrame(____, 
                     columns=____).____('Counts_')

# Add the new columns to the original DataFrame
speech_df_new = ____([speech_df, cv_df], axis=1, sort=False)
print(speech_df_new.head())
Code bewerken en uitvoeren