Anotación y preparación de datos de entrenamiento

Después de recopilar datos, puedes anotar los datos en el formato requerido para un modelo de spaCy. En este ejercicio, practicarás cómo formar el registro de datos anotados correcto para una tarea de NER en el ámbito médico.

Tienes disponible una sentence y dos entidades: entity_1 con el texto chest pain y tipo SYMPTOM, y entity_2 con el texto hyperthyroidism y tipo DISEASE.

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

Instrucciones del ejercicio

Completa el registro annotated_data en el formato correcto.
Extrae los caracteres de inicio y fin de cada entidad y guárdalos en las variables correspondientes.
Guarda la misma frase de entrada y sus entidades en el formato de entrenamiento adecuado como training_data.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"

# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}

# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)

# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"), 
                                      (____,____,"DISEASE")]})]
print(training_data)

Editar y ejecutar código

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo te presentaremos el NLP, algunos de sus casos de uso como el reconocimiento de entidades con nombre y los chatbots con IA. Aprenderás a usar la potente biblioteca spaCy para realizar diversas tareas de procesamiento del lenguaje natural, como tokenización, segmentación de oraciones, etiquetado POS y reconocimiento de entidades con nombre.

Exercise 1: Fundamentos de Natural Language Processing (NLP)Exercise 2: Contenedor Doc en spaCy Exercise 3: Caso de uso de NER Exercise 4: Tokenización con spaCy Exercise 5: Conceptos básicos de spaCy Exercise 6: Ejecutar una canalización de spaCy Exercise 7: Lematización con spaCy Exercise 8: Segmentación de oraciones con spaCy Exercise 9: Características lingüísticas en spaCy Exercise 10: Etiquetado POS con spaCy Exercise 11: NER con spaCy Exercise 12: Procesamiento de texto con spaCy

Aprende sobre características lingüísticas, vectores de palabras, similitud semántica, analogías y operaciones con vectores de palabras. En este capítulo descubrirás cómo usar spaCy para extraer vectores de palabras, categorizar textos relevantes para un tema dado y encontrar términos semánticamente similares a palabras dadas a partir de un corpus o del vocabulario de un modelo de spaCy.

Exercise 1: Rasgos lingüísticos Exercise 2: Anotaciones lingüísticas en spaCy Exercise 3: Desambiguación del sentido de las palabras con spaCy Exercise 4: Análisis de dependencias con spaCy Exercise 5: Introducción a los vectores de palabras Exercise 6: Vocabulario de spaCy Exercise 7: Vectores de palabras en el vocabulario de spaCy Exercise 8: Vectores de palabras y spaCy Exercise 9: Analogías y operaciones con vectores Exercise 10: Proyección de vectores de palabras Exercise 11: Palabras similares en un vocabulario Exercise 12: Medir la similitud semántica con spaCy Exercise 13: Similitud de Doc con spaCy Exercise 14: Similitud de spans con spaCy Exercise 15: Similitud semántica para categorizar texto

Familiarízate con los componentes de la canalización de spaCy, cómo añadir un componente y cómo analizar la canalización de NLP. También aprenderás varios enfoques para la extracción de información basada en reglas usando las clases EntityRuler, Matcher y PhraseMatcher de spaCy y el paquete RegEx de Python.

Exercise 1: Pipelines de spaCy Exercise 2: Añadir componentes (pipes) en spaCy Exercise 3: Analizar canalizaciones en spaCy Exercise 4: EntityRuler de spaCy Exercise 5: EntityRuler con un modelo en blanco de spaCy Exercise 6: EntityRuler para NER Exercise 7: EntityRuler con múltiples patrones en spaCy Exercise 8: RegEx con spaCy Exercise 9: RegEx en Python Exercise 10: RegEx con EntityRuler en spaCy Exercise 11: Matcher y PhraseMatcher de spaCy Exercise 12: Hacer match de un término único en spaCy Exercise 13: PhraseMatcher en spaCy Exercise 14: Emparejamiento con sintaxis extendida en spaCy

Explora múltiples casos de uso reales en los que los modelos de spaCy pueden fallar y aprende a seguir entrenándolos para mejorar su rendimiento. Te presentaremos los pasos de entrenamiento de spaCy y comprenderás cómo entrenar un modelo de spaCy existente o desde cero, y cómo evaluar el modelo en la fase de inferencia.

Exercise 1: Personalizar modelos de spaCy Exercise 2: Entrenar modelos de spaCy Exercise 3: Rendimiento del modelo en tus datos Exercise 4: Formato de datos de entrenamiento de spaCy Exercise 5: Pasos de entrenamiento Exercise 6: Anotación y preparación de datos de entrenamiento

Ejercicio actual

Exercise 7: Datos de entrenamiento compatibles Exercise 8: Entrenamiento con spaCy Exercise 9: Pasos de preparación del entrenamiento Exercise 10: Entrenar un modelo NER existente Exercise 11: Entrenar un modelo de spaCy desde cero Exercise 12: Resumen