Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla.
Un procedimiento que comprende las etapas:
(A) identificar un modelo lingüístico probabilista que incluye una pluralidad de modelos lingüísticos probabilistasasociada a una pluralidad de subestructuras de un documentos;
y
(B) utilizar un descodificador de reconocimiento de habla para aplicar el modelo lingüístico 5 probabilista a un flujo deaudio hablado para producir un documento que incluye contenido organizado en la pluralidad desubestructuras, en el cual el contenido en cada una de la pluralidad de subestructuras es producidoreconociendo el habla usando la subestructura, en el cual la pluralidad de modelos lingüísticos probabilistasestán organizados en una jerarquía, y en el cual la etapa (B) comprende las etapas de:
(B)(1) identificar una trayectoria a través de la jerarquía, que comprende las etapas de:
(B)(1)(a) identificar una pluralidad de trayectoria a través de la jerarquía
(B)(1)(b) para cada una de la pluralidad de trayectorias P, producir un documento estructuradocandidato para el flujo de audio hablado usando el descodificador de reconocimiento de habla parareconocer el flujo de audio hablado usando los modelos lingüísticos en la trayectoria P;B(1)© aplicar una medición a la pluralidad de documentos estructurados candidatos producidos en laetapa (B)(1)(b) para producir una pluralidad de puntuaciones de pertinencia para la pluralidad dedocumentos estructurados candidatos; y
(B)(1)(d) seleccionar la trayectoria que produce los documentos estructurados candidatos que tienenla mayor puntuación pertinente;
(B)(2) generar el documento que tiene una estructura que corresponde a la trayectoria identificada en la etapa(B)(1).
Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2005/029354.
Solicitante: Multimodal Technologies, LLC.
Nacionalidad solicitante: Estados Unidos de América.
Dirección: 1710 Murray Avenue Pittsburgh, PA 15217 ESTADOS UNIDOS DE AMERICA.
Inventor/es: FINKE,MICHAEL, FRITSCH,JUERGEN, KOLL,DETLEF, WOSZCZYNA,MONIKA, YEGNANARAYANAN,GIRIJA.
Fecha de Publicación: .
Clasificación Internacional de Patentes:
- G10L15/18 FISICA. › G10 INSTRUMENTOS MUSICALES; ACUSTICA. › G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ. › G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › utilizando una modelización del lenguaje natural.
PDF original: ES-2394726_T3.pdf
Fragmento de la descripción:
Extracción automática de contenido semántico y generación de un documento estructurado a partir del habla
Referencia cruzada a solicitudes relacionadas Esta solicitud está relacionada con la Solicitud de patente de los Estados Unidos titulada “Documento Transcription System Training”.
Antecedentes Campo de la invención La presente invención se refiere al reconocimiento automático del habla, y más en particular, a técnicas para transcribir automáticamente el habla.
Técnica relacionada Es deseable en muchos contextos generar un documento escrito basado en el habla humana. En la profesión legal, por ejemplo, los transcriptores transcriben testimonios dados en procedimientos judiciales y en declaraciones para producir una transcripción escrita del testimonio. Asimismo, en la profesión médica, se producen transcripciones de diagnósticos, pronósticos, prescripciones y otras informaciones dictadas por los médicos y otros profesionales médicos. Las transcripciones en estos y otros campos necesitan típicamente ser muy precisas (medidas en términos de grado de correspondencia entre el contenido semántico (significado) del discurso original y el contenido semántico de la transcripción resultante) debido a la confianza puesta en las transcripciones resultantes y el perjuicio que podría causar una imprecisión (tal como proporcionar una prescripción de fármaco incorrecta a un paciente) . Los altos grados de fiabilidad pueden, sin embargo ser difíciles de obtenerse de manera consistente por varias razones, tales como las variaciones en : (1) las características de los hablantes cuyo habla es transcrito (por ejemplo, acento, volumen, dialecto, velocidad) ; (2) condiciones externas (por ejemplo, ruido de fondo) ; (3) el transcriptor o el sistema de transcripción (por ejemplo capacidades de escucha o captura de audio imperfectas, comprensión imperfecta del lenguaje) ; o (4) medio de grabación/transmisión (por ejemplo, papel, cinta de audio analógica, red telefónica analógica, algoritmos de compresión aplicados en redes telefónicas digitales, y ruidos/artefactos debidos a los canales de teléfonos celulares) .
En un primer momento la transcripción solo se realizaba por transcriptores humanos que escuchaban el habla, el discurso, bien entiempo real (por ejemplo, en persona “tomando dictado”) o escuchando una grabación. Una ventaja de los transcriptores humanos es que pueden tener un conocimiento específico de un campo, tal como el conocimiento de la medicina y la terminología médica, lo cual les permite interpretar ambigüedades en el discurso y por lo tanto mejorar la precisión de la transcripción. Los transcriptores humanos, sin embargo, tienen varios inconvenientes. Por ejemplo, los transcriptores humanos producen transcripciones a una velocidad relativamente lenta y su precisión se va reduciendo a lo largo del tiempo como consecuencia del cansancio.
Existen varios sistemas de reconocimiento automático del habla para reconocer el habla humano generalmente y para transcribir el habla en particular. Los sistemas de reconocimiento de habla que crean transcripciones son denominados “sistemas de transcripción automatizados” o “sistemas de dictado automatizados”. El software de disco listo para usar, por ejemplo, puede ser usado por los usuarios de un ordenador personal para dictar documentos en un procesador de texto como alternativa a escribir tales documentos usando un teclado.
Los sistemas de dictado automatizados intentan típicamente producir una transcripción del discurso palabra a palabra. Tal transcripción, en la cual hay una correspondencia unívoca entre las palabras en el flujo de audio hablado y las palabras en la transcripción, se denomina en el presente documento “transcripción literal”. Los sistemas de dictado automatizados no son perfectos y por lo tanto pueden fallar al producir transcripciones literalmente perfectas.
En algunas circunstancias, sin embargo, una transcripción literal no es deseable. De hecho, los transcriptores pueden intencionalmente introducir varios cambios en la transcripción escrita. Una transcripción puede, por ejemplo, filtrar efectos espontáneos del habla (por ejemplo expresiones de pausa, vacilaciones, comienzos falsos) , descartar observaciones y comentarios irrelevantes, convertir datos en un formato estándar, insertar encabezamientos u otros materiales explicativos, o cambiar la secuencia del discurso para ajustar la estructura de un informe escrito.
En el campo médico, por ejemplo, los informes hablados producidos por los médicos se transcriben a menudo en informes escritos con formatos estándar. Por ejemplo con referencia a la figura 1B, se muestra un ejemplo de un informe médico estructurado y formateado 111. El informe 111 incluye una variedad de secciones 112-138 que aparecen en una secuencia predeterminada cuando se visualiza el informe 111. En el ejemplo particular mostrado en la figura 1B, el informe incluye una sección de encabezado 112, una sección subjetiva 122, una sección objetiva 134, una sección de evaluación 136, y una sección de plan 138. Las secciones pueden incluir texto así como subsecciones. Por ejemplo, la sección de encabezado 112 incluye una sección de nombre de hospital 120 (que contiene el texto “Hospital General”) , una sección de nombre de paciente 114 (que contiene el texto “Jane DOE”, una sección de número de tarjeta 116 (que contiene el texto “851D”) , y una sección de fecha de informe 118 (que contiene el texto (10/1/1993”) .
Asimismo, la sección subjetiva 122 incluye varias informaciones subjetivas acerca del paciente, incluidas tanto en el texto como en una sección de historial médico 124, una sección de medicaciones 126, una sección de alergias 128, una sección de historial familiar 130, y una sección de historial social 132. La sección objetiva 134 incluye varias informaciones objetivas. Aunque no se ilustra en la figura 1B, la información en la sección objetiva puede incluir subsecciones que contienen la información ilustrada. La sección de evaluación 136 incluye una evaluación textual de la condición del paciente, y la subsección de plan 138 incluye una descripción textual de un plan de tratamiento.
Cabe resaltar que la información puede aparece en una forma diferente en el informe 111 de la forma en que tal información fue dictada por el médico. Por ejemplo la fecha en la sección de fecha de informe 118 puede haber sido dicha como “octubre, uno de 1993” “primero de octubre de 1993” o d otra forma. El transcriptor, sin embargo, transcribió tal discurso usando el texto “10/1/1993) en la sección de fecha de informe 118, quizás porque e hospital especificado en la sección de hospital 120 requiere que las fechas se expresen en los informes escritos con tal formato.
Asimismo, la información en la informe médico 111 puede no aparecer en la misma secuencia que en la grabación de audio original, debido a la necesidad de conformarse a un formato de informe requerido o por algún otro motivo. Por ejemplo, el médico que dicta puede haber dictado en primer lugar la sección objetiva 134, seguida de la sección subjetiva 122, y a continuación el encabezado 120. El informe escrito 111, sin embargo, contiene el encabezado 120 en primer lugar, seguido de la sección subjetiva 122 y a continuación la sección objetiva 134. Tal estructura de informe puede, por ejemplo, ser necesaria para los informes médicos en el hospital especificado en la sección de hospital 120.
El principio del informe 111 puede haber sido generado basándose en un flujo de audio hablado tal como el siguiente: “El doctor Smith uh el primero de octubre um de 1993, identidad del paciente ochentaicinco uno d um a continuación se encuentra el historial familiar del paciente que he revisado ….” Debería ser evidente que una transcripción literal de este discurso sería difícil de entender y no sería particularmente útil.
Cabe resaltar por ejemplo que algunas palabras, tales como “ a continuación se encuentra un” no aparecen en el informe escrito 111. Asimismo, la expresión que marca pausa como “uh” no aparece en el informe escrito 111. Además, el informe escrito 111 organiza el discurso original en las secciones predefinidas 112-140 reordenando el discurso. Como lo ilustran estos ejemplos, el informe escrito 111 no es una transcripción literal del discurso de médico que dicta.
En resumen, un informe tal como el informe 111 puede ser más deseable que una transcripción literal por varios motivos (por ejemplo, porque organiza la información de tal manera que facilita la comprensión) . Por lo tanto sería... [Seguir leyendo]
Reivindicaciones:
1. Un procedimiento que comprende las etapas:
(A) identificar un modelo lingüístico probabilista que incluye una pluralidad de modelos lingüísticos probabilistas asociada a una pluralidad de subestructuras de un documentos; y
(B) utilizar un descodificador de reconocimiento de habla para aplicar el modelo lingüístico probabilista a un flujo de audio hablado para producir un documento que incluye contenido organizado en la pluralidad de subestructuras, en el cual el contenido en cada una de la pluralidad de subestructuras es producido reconociendo el habla usando la subestructura, en el cual la pluralidad de modelos lingüísticos probabilistas están organizados en una jerarquía, y en el cual la etapa (B) comprende las etapas de:
(B) (1) identificar una trayectoria a través de la jerarquía, que comprende las etapas de:
(B) (1) (a) identificar una pluralidad de trayectoria a través de la jerarquía (B) (1) (b) para cada una de la pluralidad de trayectorias P, producir un documento estructurado candidato para el flujo de audio hablado usando el descodificador de reconocimiento de habla para reconocer el flujo de audio hablado usando los modelos lingüísticos en la trayectoria P; B (1) © aplicar una medición a la pluralidad de documentos estructurados candidatos producidos en la etapa (B) (1) (b) para producir una pluralidad de puntuaciones de pertinencia para la pluralidad de documentos estructurados candidatos; y (B) (1) (d) seleccionar la trayectoria que produce los documentos estructurados candidatos que tienen la mayor puntuación pertinente;
(B) (2) generar el documento que tiene una estructura que corresponde a la trayectoria identificada en la etapa (B) (1) .
2. El procedimiento de la reivindicación 1, en el cual la pluralidad de modelos lingüísticos probabilistas incluye al menos un modelo lingüístico de n-gramas.
3. El procedimiento de la reivindicación 1, en el cual la pluralidad de modelos lingüísticos probabilistas incluye al menos un modelo lingüístico de estado finito.
4. El procedimiento de la reivindicación 1, en el cual la pluralidad de subestructura incluye una subestructura que representa un concepto semántico.
5. El procedimiento de la reivindicación 4, en el cual el concepto semántico comprende una medicación.
6. El procedimiento de la reivindicación 1, que comprende, además, una etapa de:
(C) presentar el documento para producir una representación que indica la estructura del documento.
Patentes similares o relacionadas:
Aparato para responder a una llamada telefónica cuando un destinatario de la llamada telefónica decide que resulta inapropiado hablar y método relacionado, del 26 de Febrero de 2020, de Saronikos Trading and Services, Unipessoal Lda: Aparato (1a; 1b) para responder a una llamada telefónica cuando un destinatario de dicha llamada telefónica decide que resulta inapropiado hablar, […]
Análisis lingüístico basado en una selección de palabras y dispositivo de análisis lingüístico, del 31 de Julio de 2019, de PRECIRE Technologies GmbH: Procedimiento para el análisis lingüístico automatizado basado en una selección de palabras, que comprende los pasos: a) la preparación de un sistema […]
Creación de una base de datos de referencia de parámetros de habla para clasificar expresiones del habla, del 24 de Enero de 2018, de VOICESENSE LTD.: Un método implementado por ordenador de creación de una base de datos de referencia de parámetros de habla para clasificar expresiones del habla según diversas características […]
Sistemas y métodos para realizar ASR en presencia de palabras heterógrafas, del 7 de Junio de 2017, de Rovi Guides, Inc: Un aparato para corregir automáticamente los errores del reconocimiento del habla, el aparato comprende: medios para recibir una entrada verbal del usuario que […]
SISTEMA DE MENSAJERÍA INSTANTÁNEA, del 9 de Febrero de 2017, de PROYECTOS Y SOLUCIONES TECNOLÓGICAS AVANZADAS, S.L.P: Sistema de mensajería instantánea comprendiendo una aplicación de mensajería instantánea para la comunicación entre usuarios y máquinas mediante lenguaje […]
Sistema de mensajería instantánea, del 7 de Febrero de 2017, de PROYECTOS Y SOLUCIONES TECNOLÓGICAS AVANZADAS, S.L.P: Sistema de mensajería instantánea comprendiendo una aplicación de mensajería instantánea para la comunicación entre usuarios y máquinas mediante lenguaje natural, […]
Método para descubrir y reconocer patrones, del 18 de Febrero de 2015, de Aalto-Korkeakoulusäätiö: Método para reconocer un concepto en una señal, por ejemplo una señal de voz, mediante un aparato, comprendiendo el método: recibir , […]
Procedimiento, sistema y programa informático para recoger múltiples fragmentos de información durante un diálogo de usuario, del 17 de Septiembre de 2014, de 24/7 Customer, Inc: Un procedimiento implementado en ordenador para construir y procesar un diálogo multifranja con un usuario, que comprende las etapas de: activación de todas las […]