Utilizar la funcionalidad de su clase
Ahora ha añadido una funcionalidad adicional al método __init__
de su clase Document
que procesa automáticamente el texto para sus usuarios. En este ejercicio, actuarás como uno de esos usuarios para ver los beneficios de tu duro trabajo.
La clase Document
(copiada a continuación) se ha cargado en su entorno (con sus nuevas actualizaciones).
class Document:
def __init__(self, text):
self.text = text
# pre tokenize the document with non-public tokenize method
self.tokens = self._tokenize()
# pre tokenize the document with non-public count_words
self.word_counts = self._count_words()
def _tokenize(self):
return tokenize(self.text)
# non-public method to tally document's word counts with Counter
def _count_words(self):
return Counter(self.tokens)
Este ejercicio forma parte del curso
Principios de ingeniería del software en Python
Instrucciones de ejercicio
- Cree una nueva instancia de
Document
a partir del conjunto de datosdatacamp_tweets
cargado en su entorno. El objetodatacamp_tweets
es una única cadena que contiene cientos de tweets escritos por usuarios de DataCamp & DataCamp. - Imprime los 5 primeros
tokens
dedatacamp_doc
. - Imprime las 5 palabras más comunes calculadas por el método no público
_count_words()
automáticamente en el métodoDocument.__init__
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# create a new document instance from datacamp_tweets
datacamp_doc = ____(____)
# print the first 5 tokens from datacamp_doc
print(____.____[:5])
# print the top 5 most used words in datacamp_doc
print(____.____.most_common(5))