Text zu DataFrame
Nachdem du diese zählbasierten Features als Array erzeugt hast, musst du sie so umformatieren, dass sie mit dem restlichen Datensatz kombiniert werden können. Das erreichst du, indem du das Array in ein pandas DataFrame umwandelst, die zuvor ermittelten Feature-Namen als Spaltennamen verwendest und es anschließend mit dem ursprünglichen DataFrame zusammenführst.
Das numpy-Array (cv_array) und der Vektorisierer (cv), die du in der letzten Übung fit gemacht hast, stehen in deinem Workspace zur Verfügung.
Diese Übung ist Teil des Kurses
<Kurs>Feature Engineering für Machine Learning in Python</Kurs>Übungsanweisungen
- Erstelle ein DataFrame
cv_dfmitcv_arrayals Werte und den Feature-Namen als Spaltennamen. - Füge zur besseren Erkennbarkeit den Präfix
Counts_zu den Spaltennamen hinzu. - Führe dieses DataFrame (
cv_df) spaltenweise mit dem ursprünglichen DataFrame (speech_df) zusammen.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Create a DataFrame with these features
cv_df = pd.DataFrame(____,
columns=____).____('Counts_')
# Add the new columns to the original DataFrame
speech_df_new = ____([speech_df, cv_df], axis=1, sort=False)
print(speech_df_new.head())