Tagar dan sebutan dalam cuitan berbahasa Rusia

Mari kita tinjau kembali dataframe tweets yang berisi cuitan berbahasa Rusia. Dalam latihan ini, Anda akan menghitung jumlah tagar dan sebutan pada setiap cuitan dengan mendefinisikan dua fungsi, masing-masing count_hashtags() dan count_mentions(), lalu menerapkannya pada fitur content dari tweets.

Jika Anda lupa, cuitan tersimpan pada fitur content dari tweets.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Function that returns numner of hashtags in a string
def count_hashtags(string):
	# Split the string into words
    words = string.split()
    
    # Create a list of words that are hashtags
    hashtags = [word for word in words if ____.____(____)]
    
    # Return number of hashtags
    return(len(hashtags))

# Create a feature hashtag_count and display distribution
tweets['hashtag_count'] = tweets['content'].apply(count_hashtags)
tweets['hashtag_count'].hist()
plt.title('Hashtag count distribution')
plt.show()

Edit dan Jalankan Kode