Hashtags et mentions dans des tweets en russe
Revenons au dataframe tweets qui contient des tweets en russe. Dans cet exercice, vous allez calculer le nombre de hashtags et de mentions dans chaque tweet en définissant deux fonctions, count_hashtags() et count_mentions(), puis en les appliquant à la variable content de tweets.
Si vous ne vous en souvenez plus, les tweets se trouvent dans la variable content de tweets.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Function that returns numner of hashtags in a string
def count_hashtags(string):
# Split the string into words
words = string.split()
# Create a list of words that are hashtags
hashtags = [word for word in words if ____.____(____)]
# Return number of hashtags
return(len(hashtags))
# Create a feature hashtag_count and display distribution
tweets['hashtag_count'] = tweets['content'].apply(count_hashtags)
tweets['hashtag_count'].hist()
plt.title('Hashtag count distribution')
plt.show()