Text zu DataFrame
Nachdem du diese zählbasierten Features als Array erzeugt hast, musst du sie so umformatieren, dass sie mit dem restlichen Datensatz kombiniert werden können. Das erreichst du, indem du das Array in ein pandas DataFrame umwandelst, die zuvor ermittelten Feature-Namen als Spaltennamen verwendest und es anschließend mit dem ursprünglichen DataFrame zusammenführst.
Das numpy-Array (cv_array) und der Vektorisierer (cv), die du in der letzten Übung fit gemacht hast, stehen in deinem Workspace zur Verfügung.
Diese Übung ist Teil des Kurses
Feature Engineering für Machine Learning in Python
Anleitung zur Übung
- Erstelle ein DataFrame
cv_dfmitcv_arrayals Werte und den Feature-Namen als Spaltennamen. - Füge zur besseren Erkennbarkeit den Präfix
Counts_zu den Spaltennamen hinzu. - Führe dieses DataFrame (
cv_df) spaltenweise mit dem ursprünglichen DataFrame (speech_df) zusammen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a DataFrame with these features
cv_df = pd.DataFrame(____,
columns=____).____('Counts_')
# Add the new columns to the original DataFrame
speech_df_new = ____([speech_df, cv_df], axis=1, sort=False)
print(speech_df_new.head())