CommencerCommencer gratuitement

Utiliser les fonctionnalités de votre classe

Vous avez ajouté des fonctionnalités supplémentaires à la méthode __init__ de votre classe Document qui traitent automatiquement le texte pour vos utilisateurs. Dans cet exercice, vous allez vous mettre dans la peau de l’un d’eux pour constater les bénéfices de votre travail.

La classe Document (recopiée ci-dessous) a été chargée dans votre environnement (avec vos nouvelles mises à jour).

class Document:
  def __init__(self, text):
    self.text = text
    # pré-tokeniser le document avec la méthode non publique tokenize
    self.tokens = self._tokenize()
    # pré-calculer les occurrences de mots avec la méthode non publique count_words
    self.word_counts = self._count_words()

  def _tokenize(self):
    return tokenize(self.text)

  # méthode non publique pour comptabiliser les occurrences des mots du document avec Counter
  def _count_words(self):
    return Counter(self.tokens)

Cet exercice fait partie du cours

Principes d’ingénierie logicielle en Python

Afficher le cours

Instructions

  • Créez une nouvelle instance de Document à partir de l’ensemble de données datacamp_tweets chargé dans votre environnement. L’objet datacamp_tweets est une seule chaîne qui contient des centaines de tweets écrits par DataCamp et ses utilisateurs.
  • Affichez les 5 premiers tokens de datacamp_doc.
  • Affichez les 5 mots les plus fréquents, calculés automatiquement par la méthode non publique _count_words() dans Document.__init__.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# create a new document instance from datacamp_tweets
datacamp_doc = ____(____)

# print the first 5 tokens from datacamp_doc
print(____.____[:5])

# print the top 5 most used words in datacamp_doc
print(____.____.most_common(5))
Modifier et exécuter le code