Texto para DataFrame
Agora que você gerou essas features baseadas em contagem em um array, será preciso reformatá-las para que possam ser combinadas com o restante do conjunto de dados. Isso pode ser feito convertendo o array em um DataFrame do pandas, usando como nomes de colunas os nomes das features que você encontrou antes, e então concatenando-o ao DataFrame original.
O array do numpy (cv_array) e o vetorizador (cv) que você ajustou no exercício anterior estão disponíveis no seu workspace.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Instruções do exercício
- Crie um DataFrame
cv_dfcontendocv_arraycomo valores e os nomes das features como nomes das colunas. - Adicione o prefixo
Counts_aos nomes das colunas para facilitar a identificação. - Concatene esse DataFrame (
cv_df) ao DataFrame original (speech_df) por colunas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a DataFrame with these features
cv_df = pd.DataFrame(____,
columns=____).____('Counts_')
# Add the new columns to the original DataFrame
speech_df_new = ____([speech_df, cv_df], axis=1, sort=False)
print(speech_df_new.head())