Utiliser les fonctionnalités de votre classe
Vous avez ajouté des fonctionnalités supplémentaires à la méthode __init__ de votre classe Document qui traitent automatiquement le texte pour vos utilisateurs. Dans cet exercice, vous allez vous mettre dans la peau de l’un d’eux pour constater les bénéfices de votre travail.
La classe Document (recopiée ci-dessous) a été chargée dans votre environnement (avec vos nouvelles mises à jour).
class Document:
def __init__(self, text):
self.text = text
# pré-tokeniser le document avec la méthode non publique tokenize
self.tokens = self._tokenize()
# pré-calculer les occurrences de mots avec la méthode non publique count_words
self.word_counts = self._count_words()
def _tokenize(self):
return tokenize(self.text)
# méthode non publique pour comptabiliser les occurrences des mots du document avec Counter
def _count_words(self):
return Counter(self.tokens)
Cet exercice fait partie du cours
Principes d’ingénierie logicielle en Python
Instructions
- Créez une nouvelle instance de
Documentà partir de l’ensemble de donnéesdatacamp_tweetschargé dans votre environnement. L’objetdatacamp_tweetsest une seule chaîne qui contient des centaines de tweets écrits par DataCamp et ses utilisateurs. - Affichez les 5 premiers
tokensdedatacamp_doc. - Affichez les 5 mots les plus fréquents, calculés automatiquement par la méthode non publique
_count_words()dansDocument.__init__.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# create a new document instance from datacamp_tweets
datacamp_doc = ____(____)
# print the first 5 tokens from datacamp_doc
print(____.____[:5])
# print the top 5 most used words in datacamp_doc
print(____.____.most_common(5))