PROGRAMA INFORMÁTICO PARA ANÁLISIS ESTADÍSTICO DE LA VOZ.

Un método de determinación de la presencia de conceptos para un sistema que comprende una herramienta de reconocimiento de voz y una memoria de ficheros electrónicos,

siendo la herramienta de reconocimiento de voz utilizable para procesar datos de voz que comprenden una frase reconociendo una pluralidad de alternativas para la frase, comprendiendo dicha frase al menos una palabra, almacenado la memoria de ficheros electrónicos al menos una parte de la pluralidad de alternativas y comprendiendo dicho método las etapas de: (A) la recepción de un patrón que comprende una estructura de datos que representa al menos una palabra a compararse con las alternativas almacenadas en la memoria de ficheros electrónicos; (B) la comparación del patrón con las alternativas almacenadas en la memoria de ficheros electrónicos y (C) una vez realizada una comparación satisfactoria entre el patrón y una de las alternativas, el almacenamiento de una indicación de una coincidencia entre el patrón y la alternativa correspondiente a la comparación satisfactoria, caracterizado porque la etapa (A) comprende, además, la recepción de una puntuación de ponderación que corresponde al patrón, comprendiendo la etapa (C), además, después de una comparación satisfactoria entre el patrón y una de las alternativas, la asignación de la puntuación de ponderación a la alternativa y en donde el método comprende, además, las etapas de: (D) proporcionar un cesto operativo, correspondiente a un concepto, teniendo el cesto operativo una puntuación de umbral y (E) almacenar una indicación de una relación entre la alternativa y el cesto cuando la puntuación de ponderación asignada a la alternativa cumple o excede la puntuación umbral

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2003/030614.

Solicitante: CALLMINER, INC.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 210 SOUTH DEL PRADO BOULEVARD, SUITE 6 CAPE CORAL, FL 33990 ESTADOS UNIDOS DE AMERICA.

Inventor/es: GALLINO,Jeffrey,A.

Fecha de Publicación: .

Fecha Solicitud PCT: 26 de Septiembre de 2003.

Clasificación Internacional de Patentes:

  • G10L15/26A

Clasificación PCT:

  • G10L15/26 FISICA.G10 INSTRUMENTOS MUSICALES; ACUSTICA.G10L ANALISIS O SINTESIS DE LA VOZ; RECONOCIMIENTO DE LA VOZ; PROCESAMIENTO DE LA VOZ O EL HABLA; CODIFICACIÓN O DESCODIFICACIÓN DEL AUDIO O LA VOZ.G10L 15/00 Reconocimiento de la voz (G10L 17/00 tiene prioridad). › Sistemas de síntesis de texto a partir de la voz (G10L 15/08 tiene prioridad).

Clasificación antigua:

  • G10L15/04 G10L 15/00 […] › Segmentación o detección de los límites de las palabras; Word boundary detection.

Países PCT: Austria, Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Reino Unido, Grecia, Italia, Liechtensein, Luxemburgo, Países Bajos, Suecia, Mónaco, Portugal, Irlanda, Eslovenia, Finlandia, Rumania, Chipre, Lituania, Letonia, Ex República Yugoslava de Macedonia, Albania.

PDF original: ES-2367521_T3.pdf

 


Fragmento de la descripción:

La presente invención se refiere a programas informáticos y más en particular, a programas informáticos para facilitar el reconocimiento del contenido de datos de voz. ANTECEDENTES DE LA INVENCIÓN El reconocimiento de la voz es un campo en el que ha tenido lugar importantes actividades de investigación y desarrollo. El Departamento de Defensa de los Estados Unidos comenzó a patrocinar estudios a finales de los años 1940 y dichos estudios fueron seguidos, inmediatamente después, por avances a nivel comercial, por compañías tales como Bell Laboratories e IBM. Actualmente, las herramientas de reconocimiento de la voz existen para una amplia gama de aplicaciones, incluyendo la asistencia para la sordera, órdenes de voz para dispositivos electrónicos tales como ordenadores y para identificar palabras que comprenden interacciones comerciales basadas en la voz (tal como en las actividades de apoyo al cliente o de comercialización a distancia). Las técnicas convencionales de reconocimiento de la voz funcionan identificando una mejor coincidencia única para una frase o palabra pronunciada. Una herramienta de reconocimiento de la voz convencional recibe una frase o palabra pronunciada, la convierte en un formato electrónico, hace coincidir sus sonidos componentes con un conjunto de datos de referencia (un léxico, que puede incluir hasta decenas de miles de palabras que la herramienta ha sido configurada para su reconocimiento), identifica un conjunto de coincidencias posibles (alternativas) para la palabra o frase pronunciada y asigna a cada alternativa una probabilidad de que represente la palabra o frase real que fue pronunciada. Cualquiera de entre numerosas técnicas se puede utilizar para identificar alternativas para la palabra o frase pronunciada y/o asignar a cada una de las alternativas una probabilidad correspondiente de que sea correcta. Una técnica dominante es el método de modelización matemática conocido como el Patrón de Markov Oculto (HMM). En resumen, HMM construye un árbol de decisiones con nodos para cada una de las alternativas que identifica y basándose en las características de la combinación de palabras en cada nodo, determina la probabilidad de corrección de cada nodo en relación con los demás nodos. Una vez que el método de HMM asigna una probabilidad a cada alternativa, las herramientas de reconocimiento de la voz convencionales seleccionan la alternativa a la que se ha asignado la más alta probabilidad como la alternativa correcta. Los esfuerzos destinados al reconocimiento de la voz están plagados por obstáculos técnicos importantes, causados por la naturaleza muy variable de los patrones de voz. En particular, la identificación de alternativas y las probabilidades correspondientes para palabras o frases pronunciadas se complica por la observancia variable de la corrección gramatical, contexto, acentos y otras variables lingüísticas muy diversas. Estas dificultades han hecho del reconocimiento preciso de una palabra o frase, de entre decenas de miles de posibilidades, que constituyó un objetivo muy difícil de conseguir durante décadas. En realidad, el reconocimiento de la voz sigue siendo muy problemático y propenso al error. El artículo The TREC Spoken Document Retrieval Track: a Success Store, Garfolo J.S. RIAO 2000, da a conocer la recuperación de documentos hablados combinando las tecnologías de reconocimiento de la voz y de recuperación de la información. El documento WO A- 01/74042 da a conocer el análisis de conversaciones en centros de llamadas con reconocimiento de la voz. SUMARIO DE LA INVENCIÓN En conformidad con una forma de realización de la invención, se da a conocer un método para analizar la comunicación oral según se establece en la reivindicación 1. La reivindicación 10 reivindica un medio de soporte legible por ordenador correspondiente; formas de realización preferidas se establecen en las reivindicaciones subordinadas. BREVE DESCRIPCIÓN DE LOS DIBUJOS ES 2 367 521 T3 La Figura 1 es un diagrama de bloques de un sistema de ordenador en donde se pueden poner en práctica formas de realización de la invención; La Figura 2 es un diagrama de bloques de un sistema de almacenamiento de datos en donde se pueden poner en práctica formas de realización de la invención; La Figura 3 es un diagrama de bloques de un sistema para procesar datos de comunicación de voz en conformidad con una forma de realización de la presente invención; La Figura 4 es un diagrama de flujo que ilustra un proceso para procesar datos de comunicación de voz en conformidad con una forma de realización de la presente invención; 2 La Figura 5 ilustra una interfaz de usuario gráfica (GUI) a modo de ejemplo, que se puede utilizar para determinar el contenido de datos de comunicación de voz, según una forma de realización de la invención; La Figura 6 ilustra una interfaz GUI, a modo de ejemplo, que se puede utilizar para definir un patrón y/o segmento para establecer la coincidencia de una parte de datos de comunicación de voz, según una forma de realización de la invención; La Figura 7 es un diagrama de flujo que ilustra un proceso para determinar si una parte de datos de comunicación de voz coincide con un patrón, según una forma de realización de la invención; La Figura 8 ilustra una interfaz GUI, a modo de ejemplo, que puede visualizar una parte de datos de comunicación de voz que coincide con un patrón, según una forma de realización de la invención y La Figura 9 es un diagrama de bloques que ilustra una estructura de datos, a modo de ejemplo, utilizada por algunas formas de realización de la invención. DESCRIPCIÓN DETALLADA DE LA INVENCIÓN ES 2 367 521 T3 Las dificultades técnicas asociadas con las técnicas de reconocimiento de la voz convencionales se pueden reducir utilizando, más completamente, la información generada durante los procesos de reconocimiento convencionales. En particular, mientras que las herramientas de reconocimiento de la voz convencionales determinan un conjunto de alternativas para cada palabra pronunciada y determinan cuál de las alternativas tiene la más alta probabilidad de ser realmente la palabra pronunciada, identificando, de este modo, una mejor coincidencia única para una palabra o frase pronunciada, estas herramientas desechan, entonces, el resto de las alternativas. Estas alternativas, y los datos estadísticos correspondientes generados por ellas, pueden tener un valor importante en la determinación del contenido de un cuerpo de datos de voz. En consecuencia, una forma de realización de la presente invención da a conocer un método para recoger y analizar datos de voz, en donde una muestra de palabras pronunciadas se recoge y convierte a una forma electrónica, se identifica una pluralidad de alternativas para cada palabra en los datos de voz, se determina la probabilidad de que cada alternativa represente la palabra pronunciada, al menos una parte de las alternativas y las probabilidades correspondientes se cargan en una memoria de ficheros electrónicos y se realiza un análisis sobre la parte de alternativas y probabilidades para determinar el contenido de los datos de voz. De este modo, en lugar de intentar identificar definitivamente cada palabra o frase que fue pronunciada, un aspecto de la presente invención está orientado a identificar las palabras que podrían haberse pronunciado, de modo que las palabras que realmente fueron pronunciadas puedan ser amplificadas, desde el punto de vista estadístico, a través de una muestra de datos de voz. El análisis de los datos recogidos de esta forma pueden revelar características que puedan no haber sido identificables utilizando las técnicas de reconocimiento de la voz convencionales. Por ejemplo, se puede determinar la frecuencia con la que aparecen alternativas en los datos dentro de un periodo de tiempo concreto, lo que significa que las palabras o frases, más frecuentemente pronunciadas en ese periodo, se pueden aproximar (p.e., en función de las alternativas) sin requerir un conocimiento previo del contenido de los datos. Además, los datos se pueden hacer coincidir con respecto a uno o más patrones o construcciones de datos configurables, preparadas por un usuario, para representar varias formas de comunicación de un concepto, con el fin de determinar la ocurrencia de ese concepto en los datos. Los datos de un solo periodo de tiempo se pueden comparar con datos recogidos en otros periodos de tiempo con el fin de identificar tendencias y/o compararse con la ocurrencia de hechos concretos para determinar la correlación entre los temas conversacionales y esos hechos. Además, los datos se pueden segmentar en función de su contenido para conseguir cualquiera de numerosos objetivos. Varias formas de análisis de datos, que pueden realizarse, se dan a conocer a continuación, con detalle. Varios aspectos de la invención se pueden... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de determinación de la presencia de conceptos para un sistema que comprende una herramienta de reconocimiento de voz y una memoria de ficheros electrónicos, siendo la herramienta de reconocimiento de voz utilizable para procesar datos de voz que comprenden una frase reconociendo una pluralidad de alternativas para la frase, comprendiendo dicha frase al menos una palabra, almacenado la memoria de ficheros electrónicos al menos una parte de la pluralidad de alternativas y comprendiendo dicho método las etapas de: (A) la recepción de un patrón que comprende una estructura de datos que representa al menos una palabra a compararse con las alternativas almacenadas en la memoria de ficheros electrónicos; (B) la comparación del patrón con las alternativas almacenadas en la memoria de ficheros electrónicos y (C) una vez realizada una comparación satisfactoria entre el patrón y una de las alternativas, el almacenamiento de una indicación de una coincidencia entre el patrón y la alternativa correspondiente a la comparación satisfactoria, caracterizado porque la etapa (A) comprende, además, la recepción de una puntuación de ponderación que corresponde al patrón, comprendiendo la etapa (C), además, después de una comparación satisfactoria entre el patrón y una de las alternativas, la asignación de la puntuación de ponderación a la alternativa y en donde el método comprende, además, las etapas de: (D) proporcionar un cesto operativo, correspondiente a un concepto, teniendo el cesto operativo una puntuación de umbral y (E) almacenar una indicación de una relación entre la alternativa y el cesto cuando la puntuación de ponderación asignada a la alternativa cumple o excede la puntuación umbral. 2. El método según la reivindicación 1, en donde la etapa (A) comprende, además, la recepción de una pluralidad de patrones, teniendo cada uno de la pluralidad de patrones una puntuación de ponderación correspondiente, comprendiendo la etapa (B), además, la comparación de cada uno de la pluralidad de patrones con las alternativas almacenadas en una memoria de ficheros electrónicos comprendiendo, además, la etapa (C): (C1) después de una comparación satisfactoria entre cualquiera de los patrones y una de las alternativas, la asignación de la puntuación de ponderación correspondiente al patrón para la alternativa y (C2) la determinación de una puntuación de ponderación acumulativa para cada alternativa, representando la puntuación de ponderación acumulativa, para cada alternativa, una suma de puntuaciones de ponderación asignadas a la alternativa después de una comparación satisfactoria entre la alternativa y uno de los patrones y en donde la etapa (E) comprende, además, el almacenamiento de una indicación de una relación entre una de las alternativas y un cesto operativo cuando la puntuación de ponderación acumulativa, para la alternativa, cumple o excede la puntuación umbral. 3. El método según la reivindicación 1, en donde el sistema comprende, además, una interfaz de usuario gráfica (GUI) y en donde la etapa (A) comprende, además, la recepción del patrón de un usuario a través de la interfaz GUI. 4. El método según la reivindicación 1, en donde el sistema comprende, además, una interfaz GUI, comprendiendo la etapa (A), además, la recepción del patrón y la puntuación de ponderación que corresponde al patrón de un usuario a través de la interfaz GUI y la etapa (D) comprende, además, proporcionar un cesto operativo que se define por el usuario a través de la interfaz GUI. 5. El método según las reivindicaciones 1 o 2, en donde la etapa (C) comprende, además, el almacenamiento de la indicación de la coincidencia entre el patrón y la alternativa en la memoria de ficheros electrónicos. 6. El método según la reivindicación 1, en donde la memoria de ficheros electrónicos comprende una base de datos. 7. El método según la reivindicación 6, en donde la base de datos es una base de datos relacional y en donde la etapa (B) se realiza incluyendo una representación del patrón en una orden de consulta en Lenguaje de Consulta Estructurado (SQL) y la ejecución de la orden de consulta en SQL con respecto a la base de datos relacional. 8. El método según la reivindicación 1, en donde los datos de voz comprenden un registro de la frase. 9. El método según la reivindicación 8, en donde el registro se proporciona en un formato de fichero electrónico. 10. Al menos un medio de soporte legible por ordenador que tiene instrucciones registradas, cuyas instrucciones, cuando se ejecutan por al menos un ordenador, realizan el método según cualquiera de las reivindicaciones 1 a 9. 11 Dispositivo de entrada ES 2 367 521 T3 Procesador Mecanismo de interconexión Memoria Almacenamiento Figura 1 12 Dispositivo de salida Registrador de llamadas Instalación de conversión Instalación de reconocimiento Figura 2 Léxico Memoria sistema almacenamiento Al procesador Herramientas Instalación de de análisis almacenamiento Motor de núcleo ES 2 367 521 T3 Figura 3 13 ES 2 367 521 T3 Inicio Capturar y preparar datos de voz para su procesamiento Reconocer alternativas de palabra/frase Cargar alternativas para almacenamiento de ficheros electrónicos Analizar datos almacenados en memoria de ficheros electrónicos Fin Figura 4 14 ES 2 367 521 T3 Ilustración ejemplo de Interfaz de Usuario Gráfica (GUI) Figura 5 ES 2 367 521 T3 Ilustración ejemplo de Interfaz de Usuario Gráfica (GUI) (Definición de puntuaciones y segmentaciones) 16 Figura 6 Inicio Recuperar datos Comparar datos con patrón Recuperar patrón siguiente Coincidencia? Sí Registrar indicación de coincidencia Determinar probabilidad de que la coincidencia signifique que fue pronunciado el texto deseado ES 2 367 521 T3 No Sí Sí Patrones agotados? Figura 7 17 Datos agotados? Fin ES 2 367 521 T3 Ilustración ejemplo de Interfaz de Usuario Gráfica (GUI) 18 Figura 8A ES 2 367 521 T3 Ilustración ejemplo de Interfaz de Usuario Gráfica (GUI) 19 Figura 8B Muestra ID Muestra Localización Grupo Fecha captura Duración ES 2 367 521 T3 Muestra-Palabra ID Muestra ID Palabra Inicio Evaluación Figura 9 Palabra ID Palabra Palabra

 

Patentes similares o relacionadas:

PROCEDIMIENTO Y APARATO DE MEDICIÓN DE LA INTELIGIBILIDAD DE UN DISPOSITIVO DE DIFUSIÓN SONORA, del 9 de Enero de 2012, de ARCHEAN TECHNOLOGIES(SOCIÉTÉ PAR ACTIONS SIMPLIFIÉE) WILHELM-JAURÉGUIBERRY, ANTOINE: Procedimiento de medición del nivel de inteligibilidad de un dispositivo de difusión sonora que comprende las etapas siguientes: - […]

Imagen de 'DISPOSITIVO DE TRADUCCION CON MATRIZ PLANA DE MICROFONOS'DISPOSITIVO DE TRADUCCION CON MATRIZ PLANA DE MICROFONOS, del 17 de Noviembre de 2009, de SPEECHGEAR, INC: Dispositivo manual de traducción, que comprende: - una matriz plana de micrófonos que incluye al menos tres micrófonos que definen un plano, cada […]

Aparato para responder a una llamada telefónica cuando un destinatario de la llamada telefónica decide que resulta inapropiado hablar y método relacionado, del 26 de Febrero de 2020, de Saronikos Trading and Services, Unipessoal Lda: Aparato (1a; 1b) para responder a una llamada telefónica cuando un destinatario de dicha llamada telefónica decide que resulta inapropiado hablar, […]

Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición, del 5 de Diciembre de 2018, de Guedon, Christophe: Procedimiento de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores para una persona con problemas […]

Procedimiento de sincronización entre una operación de procesamiento de reconocimiento vocal y una acción de activación de dicho procesamiento, del 4 de Abril de 2018, de Orange: Procedimiento de sincronización entre, por una parte, una operación de procesamiento por reconocimiento automático de la voz de una secuencia […]

MÉTODO DE INTERACCIÓN MEDIANTE VOZ PARA COMUNICACIÓN DURANTE CONDUCCIÓN DE VEHÍCULOS Y DISPOSITIVO QUE LO IMPLEMENTA, del 7 de Diciembre de 2017, de XESOL I MAS D MAS I, S.L: Se describe en este documento un procedimiento y un dispositivo que permiten llevar a cabo interacción mediante voz para comunicación durante […]

MÉTODO DE INTERACCIÓN MEDIANTE VOZ PARA COMUNICACIÓN DURANTE CONDUCCIÓN DE VEHÍCULOS Y DISPOSITIVO QUE LO IMPLEMENTA, del 30 de Noviembre de 2017, de XESOL I MAS D MAS I, S.L: Método de interacción mediante voz para comunicación durante conducción de vehículos y dispositivo que lo implementa. Se describe en este documento un procedimiento […]

Procedimiento y sistema para obtener información relevante de una comunicación por voz, del 6 de Abril de 2016, de TELEFONICA, S.A.: Procedimiento para obtener información relevante de una comunicación por voz proporcionada entre al menos dos usuarios, en el que la comunicación por voz comprende […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .