Procedimiento para el control y/o regulación apoyados por ordenador con ayuda de redes neuronales.

Procedimiento para el control y/o regulación apoyados por ordenador de un sistema técnico,

en el que:

a) el comportamiento dinámico del sistema técnico en varios instantes (t) se caracteriza en cada caso por unestado (st, xt) del sistema técnico y una acción (at) realizada en el sistema técnico, conduciendo lacorrespondiente acción (at) en el correspondiente instante (t) a un estado secuencial (st+1, xt+1) del sistematécnico en el siguiente instante (t+1);

b) se aprende una regla de elección de acciones con un conjunto de bloques de datos, incluyendo cadabloque de datos el estado (st, xt) del sistema técnico en el correspondiente instante (t), la acción (at)realizada en el estado (st, xt), así como el estado secuencial (st+1, xt+1) y estando asociada a cada bloquede datos una valoración (ri), incluyendo el aprendizaje de la regla de elección de acciones las siguientesetapas:

i) modelización de una función de calidad (Q(s, a)) mediante una primera red neuronal (Na, (s)),incluyendo los estados (st, xt) y acciones (at) del sistema técnico como parámetros;

ii) aprendizaje de la primera red neuronal (N(s,a) sobre la base de un criterio de optimalidad, quedepende de las valoraciones (ri) de los bloques de datos y de la función de calidad (Q(s,a)),modelizándose una acción óptima (a') en cuanto a la función de calidad (Q(s,a)) mediante unasegunda red neuronal (π), que se aprende basándose en la función de calidad;

c) el sistema técnico se regula y/o controla eligiendo las acciones (at) a realizar en el sistema técnico con laregla de elección de acciones aprendida basándose en la segunda red neuronal (π) aprendida;caracterizado porque

el criterio de optimalidad es la minimización de un residuo de Bellman modificado, incluyendo el residuo deBellman modificado una función auxiliar (h(s,a)), que depende del estado (st, xt) del sistema técnico y de laacción (at) que puede realizarse en el correspondiente estado (st, xt), modelizándose la función auxiliar medianteuna tercera red neuronal, que se aprende sobre la base del criterio de optimalidad, formando la tercera redneuronal una red feed-forward (de propagación hacia adelante) con una capa de entrada (I) que incluye elcorrespondiente estado (st, xt) del sistema técnico y la acción (at) que puede realizarse en el correspondienteestado (st, xt), una o varias capas ocultas (H), así como una capa de salida (O) que incluye la función auxiliar(h(s,a)).

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/EP2008/061115.

Solicitante: SIEMENS AKTIENGESELLSCHAFT.

Nacionalidad solicitante: Alemania.

Dirección: WITTELSBACHERPLATZ 2 80333 MUNCHEN ALEMANIA.

Inventor/es: SCHNEEGASS,DANIEL, UDLUFT,STEFFEN.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • F02C9/00 MECANICA; ILUMINACION; CALEFACCION; ARMAMENTO; VOLADURA.F02 MOTORES DE COMBUSTION; PLANTAS MOTRICES DE GASES CALIENTES O DE PRODUCTOS DE COMBUSTION.F02C PLANTAS MOTRICES DE TURBINAS DE GAS; TOMAS DE AIRE PARA PLANTAS DE PROPULSION A REACCION; CONTROL DE LA ALIMENTACION DE COMBUSTIBLE EN PLANTAS DE PROPULSION A REACCION QUE CONSUMEN AIRE (estructura de turbinas F01D; plantas de propulsión a reacción F02K; estructura de compresores o ventiladores F04; aparatos de combustión en los que la combustión tiene lugar en un lecho fluidizado de combustible u otras partículas F23C 10/00; elaboración de productos de combustión a alta presión o gran velocidad F23R; utilización de turbinas de gas en plantas de refrigeración por compresión F25B 11/00; utilización de turbinas de gas en vehículos, véanse las clases apropiadas relativas a vehículos). › Control de las plantas motrices de turbinas de gas; Control de la alimentación de combustible en las plantas de propulsión a reacción que consumen aire (control de las tomas de aire F02C 7/057; control de turbinas F01D; control de compresores F04D 27/00).
  • G05B13/02 FISICA.G05 CONTROL; REGULACION.G05B SISTEMAS DE CONTROL O DE REGULACION EN GENERAL; ELEMENTOS FUNCIONALES DE TALES SISTEMAS; DISPOSITIVOS DE MONITORIZACION O ENSAYOS DE TALES SISTEMAS O ELEMENTOS (dispositivos de maniobra por presión de fluido o sistemas que funcionan por medio de fluidos en general F15B; dispositivos obturadores en sí F16K; caracterizados por particularidades mecánicas solamente G05G; elementos sensibles, ver las subclases apropiadas, p. ej. G12B, las subclases de G01, H01; elementos de corrección, ver las subclases apropiadas, p. ej. H02K). › G05B 13/00 Sistemas de control adaptativos, es decir, sistemas que se regulan a sí mismos para obtener un rendimiento óptimo siguiendo un criterio predeterminado (G05B 19/00 tiene prioridad; aprendizaje automático G06N 20/00). › eléctricos.
  • G06N3/04 G […] › G06 CALCULO; CONTEO.G06N SISTEMAS DE COMPUTADORES BASADOS EN MODELOS DE CALCULO ESPECIFICOS.G06N 3/00 Sistemas de computadores basados en modelos biológicos. › Arquitectura, p. ej. topología de interconexión.

PDF original: ES-2426357_T3.pdf

 


Fragmento de la descripción:

Procedimiento para el control y/o regulación apoyados por ordenador con ayuda de redes neuronales.

La invención se refiere a un procedimiento para el control y/o regulación apoyados por ordenador de un sistema técnico y al correspondiente producto de programa de ordenador.

Cuando se controlan sistemas técnicos complejos se desea a menudo que las acciones a realizar en el sistema técnico estén elegidas tal que se obtenga un comportamiento dinámico ventajoso deseado del sistema técnico. No obstante el comportamiento dinámico de sistemas técnicos complejos a menudo no puede predecirse con facilidad, por lo que se necesitan los correspondientes procedimientos de predicción apoyados por ordenador para estimar el comportamiento futuro del sistema técnico y elegir correspondientemente acciones adecuadas para regular o controlar el sistema técnico.

Hoy en día se basa el control de sistemas técnicos a menudo en los conocimientos de expertos, es decir, la regulación automática del sistema se confecciona sobre la base de este conocimiento de expertos. Pero se conocen también planteamientos en los que mediante la ayuda de métodos conocidos del llamado aprendizaje por refuerzo se controlan sistemas técnicos. No obstante los procedimientos conocidos no pueden aplicarse en general a cualesquiera sistemas técnicos y a menudo no aportan resultados suficientemente buenos.

Por BRAM BAKKER “Reinforcement learning by backpropagation through an LSTM model/critic” (Aprendizaje por refuerzo mediante retropropagación en base a un modelo/crítica LSTM) , APPROXIMATE DYNAMIC PROGRAMMING AND REINFORCEMENT LEARNING (Programación dinámica aproximada y aprendizaje por refuerzo) , 2007. ADPR L 2007. IEEE INTERNATIONAL SYMPOSIUM ON, IEEE, Pl. 1 abril 2007 (2007-04-01) , páginas 127-134, XP031095237, ISBN: 978-1-4244-0706-4 se conoce un procedimiento para el control y/o regulación apoyados por ordenador de un sistema técnico en el que el comportamiento dinámico del sistema técnico para varios instantes se caracteriza en cada caso por un estado del sistema técnico y una acción realizada en el sistema técnico, conduciendo la correspondiente acción en un instante determinado a un estado secuencial del sistema técnico en el siguiente instante. En este procedimiento se aprende una regla de elección de acciones con un conjunto de bloques de datos, llevando cada bloque de datos asociada una valoración. El aprendizaje de la regla de elección de acciones incluye la modelización de una función de valor mediante una primera red neuronal, que incluye los estados y acciones del sistema técnico como parámetros. El aprendizaje de las reglas de elección de acciones incluye además el aprendizaje de la primera red neuronal en base a un criterio de optimalidad que depende de las valoraciones de los bloques de datos y de la función de valor, modelizándose una acción óptima con respecto a la función de valor mediante una segunda red neuronal. El sistema técnico se regula y/o controla tal que las acciones a realizar en el sistema técnico se eligen con la regla de elección de acciones aprendida basándose en la segunda red neuronal (n) aprendida.

Por lo tanto es tarea de la invención lograr un procedimiento para el control y/o regulación apoyados por ordenador de un sistema técnico que puede aplicarse con validez general a cualesquiera sistemas técnicos y que aporta buenos resultados.

En el procedimiento correspondiente a la invención se considera el comportamiento dinámico de un sistema técnico en varios instantes, caracterizándose el comportamiento dinámico en cada instante por un estado del sistema técnico y una acción realizada en el sistema técnico, conduciendo la correspondiente acción en el respectivo instante a un estado secuencial del sistema técnico en el siguiente instante.

Para lograr un control y/o regulación óptimos del sistema técnico, se aprende una regla de elección de acciones sobre la base de bloques de datos, incluyendo cada bloque de datos el estado del sistema técnico en el correspondiente instante, la acción realizada en ese instante, así como el estado secuencial, estando asociada a cada bloque de datos una valoración.

El estado del sistema técnico es aquí en particular un vector de estado con una o varias variables, siendo las variables por ejemplo magnitudes de estado observadas en el sistema técnico. Análogamente puede también estar compuesta una acción a realizar en el sistema técnico por el correspondiente vector con un conjunto de variables de acción, representando las variables de acción en particular parámetros ajustables en el sistema técnico.

El procedimiento correspondiente a la invención se caracteriza por una variante especial del aprendizaje de la regla de elección de acciones, que incluye las siguientes etapas:

i) modelización de una función de calidad mediante una primera red neuronal, incluyendo los estados y

acciones del sistema técnico como parámetros. ii) aprendizaje de la primera red neuronal sobre la base de un criterio de optimalidad, que depende de las valoraciones de los bloques de datos y de la función de calidad, modelizándose una acción óptima en cuanto a la función de calidad mediante una segunda red neuronal, que se aprende basándose en la función de calidad.

Mediante un tal procedimiento se determina, mediante un aprendizaje adecuado de la primera y segunda redes neuronales, de manera sencilla y efectiva, una regla de elección de acciones óptima, que depende de las valoraciones de los bloques de datos, estando configurada la regla de elección de acciones tal que en un cierto estado siempre se elige la acción con la mejor valoración posible. Con la regla de elección de acciones aprendida se realiza entonces la regulación o control propiamente dichos del sistema técnico, eligiéndose acciones a realizar en el sistema técnico con la regulación de elección de acciones aprendida basándose en la segunda red neuronal aprendida.

Como criterio de optimalidad se utiliza la minimización de un residuo de Bellman modificado, incluyendo el residuo de Bellman modificado una función auxiliar, que depende del correspondiente estado del sistema técnico y de las acciones a realizar en el correspondiente estado. Una posible configuración mejorada de este residuo de Bellman se describe en la descripción detallada de la solicitud. El residuo de Bellman modificado se denomina allí Laux.

Para utilizar este residuo de Bellman modificado en el procedimiento correspondiente a la invención, se modeliza la función auxiliar mediante una tercera red neuronal, que se aprende sobre la base del criterio de optimalidad, formando la tercera red neuronal una red feed-forward (de propagación hacia adelante) con una capa de entrada que incluye el correspondiente estado del sistema técnico y la acción que puede realizarse en el correspondiente estado, una o varias capas ocultas, así como una capa de salida que incluye la función auxiliar. El aprendizaje de esta tercera red neuronal se realiza en el procedimiento correspondiente a la invención en paralelo al aprendizaje de la primera y segunda redes neuronales.

El procedimiento correspondiente a la invención se probó en base a bloques de datos de prueba y se ha comprobado que con el procedimiento se logran resultados muy buenos.

El procedimiento correspondiente a la invención significa una ampliación del procedimiento descrito en el documento [1], siendo el documento [1] una solicitud de patente alemana, entregada por el mismo solicitante que la presente solicitud. El procedimiento correspondiente a la presente invención tiene frente al procedimiento del documento [1] la ventaja de que se utiliza una segunda red neuronal que aprende la acción óptima basándose en la función de calidad, con lo que la regla de elección de acciones aprendida con el procedimiento viene dada de manera sencilla mediante una segunda red neuronal aprendida, con la que partiendo de un estado del sistema técnico puede calcularse la acción óptima en este estado. Debido a ello el procedimiento no queda limitado a acciones discretas, sino que la segunda red neuronal puede modelizar en particular también acciones continuas. Además, puede incrementarse mediante el procedimiento correspondiente a la invención la eficiencia de datos, es decir, ya con una reducida cantidad de bloques de datos pueden lograrse buenos resultados para el control y/o regulación adecuados del sistema técnico basándose en un criterio de optimalidad.

En una forma de ejecución preferente del procedimiento correspondiente a la invención se modeliza la función de calidad mediante la primera red neuronal tal que se adapta una función de valoración a las valoraciones de los... [Seguir leyendo]

 


Reivindicaciones:

1. Procedimiento para el control y/o regulación apoyados por ordenador de un sistema técnico, en el que: a) el comportamiento dinámico del sistema técnico en varios instantes (t) se caracteriza en cada caso por un estado (st, xt) del sistema técnico y una acción (at) realizada en el sistema técnico, conduciendo la correspondiente acción (at) en el correspondiente instante (t) a un estado secuencial (st+1, xt+1) del sistema técnico en el siguiente instante (t+1) ; b) se aprende una regla de elección de acciones con un conjunto de bloques de datos, incluyendo cada bloque de datos el estado (st, xt) del sistema técnico en el correspondiente instante (t) , la acción (at) realizada en el estado (st, xt) , así como el estado secuencial (st+1, xt+1) y estando asociada a cada bloque de datos una valoración (ri) , incluyendo el aprendizaje de la regla de elección de acciones las siguientes etapas: i) modelización de una función de calidad (Q (s, a) ) mediante una primera red neuronal (Na, (s) ) , incluyendo los estados (st, xt) y acciones (at) del sistema técnico como parámetros; ii) aprendizaje de la primera red neuronal (N (s, a) sobre la base de un criterio de optimalidad, que depende de las valoraciones (ri) de los bloques de datos y de la función de calidad (Q (s, a) ) , modelizándose una acción óptima (a’) en cuanto a la función de calidad (Q (s, a) ) mediante una segunda red neuronal (n) , que se aprende basándose en la función de calidad;

c) el sistema técnico se regula y/o controla eligiendo las acciones (at) a realizar en el sistema técnico con la regla de elección de acciones aprendida basándose en la segunda red neuronal (n) aprendida;

caracterizado porque el criterio de optimalidad es la minimización de un residuo de Bellman modificado, incluyendo el residuo de Bellman modificado una función auxiliar (h (s, a) ) , que depende del estado (st, xt) del sistema técnico y de la acción (at) que puede realizarse en el correspondiente estado (st, xt) , modelizándose la función auxiliar mediante una tercera red neuronal, que se aprende sobre la base del criterio de optimalidad, formando la tercera red neuronal una red feed-forward (de propagación hacia adelante) con una capa de entrada (I) que incluye el correspondiente estado (st, xt) del sistema técnico y la acción (at) que puede realizarse en el correspondiente estado (st, xt) , una o varias capas ocultas (H) , así como una capa de salida (O) que incluye la función auxiliar (h (s, a) ) .

2. Procedimiento según la reivindicación 1, en el que la función de calidad (Q (s, a) ) se modeliza mediante la primera red neuronal (N (s, a) ) tal que una función de valoración (R (s, a, s’) se adapta a las valoraciones (ri) de los bloques de datos.

3. Procedimiento según la reivindicación 1 ó 2, en el que la acción óptima (a’) con respecto a la función de calidad (Q (s, a) ) es aquella acción que maximiza la función de calidad (Q (s, a) ) .

4. Procedimiento según una de las reivindicaciones precedentes, en el que la primera red neuronal (N (s, a) constituye una red feed-forward con una capa de entrada (I) que incluye el correspondiente estado (st, xt) del sistema técnico y la acción (at) que puede realizarse en el correspondiente estado (st, xt) , una o varias capas ocultas (H) , así como una capa de salida (O) que incluye la función de calidad (Q (s, a) .

5. Procedimiento según una de las reivindicaciones precedentes, en el que la segunda red neuronal (n) constituye una red feed-forward, con una capa de entrada (I) que incluye el correspondiente estado secuencial (st+1, xt+1) del sistema técnico, una o varias capas ocultas (H) así como una capa de salida (O) que incluye la acción óptima (a’) en el estado secuencial (st+1, xt+1) con respecto a la función de calidad (Q (s, a) ) .

6. Procedimiento según una de las reivindicaciones precedentes, en el que se utiliza un procedimiento de retropropagación para aprender la primera red neuronal (N (s, a) , así como la segunda red neuronal (n) .

7. Procedimiento según una de las reivindicaciones precedentes, en el que el criterio de optimalidad está elegido tal que se parametriza un comportamiento dinámico óptimo del sistema técnico.

8. Procedimiento según una de las reivindicaciones precedentes, en el que el criterio de optimalidad es la minimización del residuo de Bellman.

9. Procedimiento según una de las reivindicaciones precedentes, en el que el criterio de optimalidad es la llegada al punto fijo de la iteración de Bellman.

10. Procedimiento según una de las reivindicaciones precedentes,

en el que el criterio de optimalidad incluye un parámetro (p) ajustable, mediante cuya modificación se adapta el criterio de optimalidad.

11. Procedimiento según una de las reivindicaciones precedentes, en el que un estado (st, xt) del sistema técnico incluye una o varias variables, en particular magnitudes de estado observadas del sistema técnico y/o una acción (at) a realizar en el sistema técnico incluye una o varias variables de acción.

12. Procedimiento según una de las reivindicaciones precedentes, en el que los estados (st, xt) son estados del sistema técnico ocultos (xt) en los bloques de datos, que se generan mediante una red neuronal (RNN) recurrente con ayuda de bloques de datos de origen, incluyendo los bloques de datos de origen en cada caso un estado observado (st) del sistema técnico, una acción (at) realizada en el estado (st) observado, así como el estado secuencial (st+1) que de ello resulta.

13. Procedimiento según la reivindicación 12, en el que se modeliza el comportamiento dinámico del sistema técnico mediante la red neuronal recurrente (RNN) , estando formada la red neuronal recurrente (RNN) por al menos una capa de entrada (I’) que incluye los estados observados (st) del sistema técnico y las acciones (at) realizadas en el sistema técnico, al menos una capa recurrente oculta (H) que incluye los estados ocultos (xt) y al menos una capa de salida (O’) que incluye los estados observados (st) del sistema técnico.

14. Procedimiento según la reivindicación 13, en el que la red neuronal recurrente (RNN) se aprende con un procedimiento de aprendizaje, en particular un procedimiento de retropropagación (backpropagation) .

15. Procedimiento según una de las reivindicaciones precedentes, en el que el sistema técnico es una turbina, en particular una turbina de gas.

16. Procedimiento según la reivindicación 15, en el que mediante el procedimiento se regula y/o controla una turbina de gas, incluyendo los estados (st, xt) del sistema técnico y/o las acciones (at) que pueden realizarse en los correspondientes estados (st, xt) una o varias de las siguientes magnitudes: potencia total de la turbina de gas; una o varias presiones y/o temperaturas en la turbina de gas o en el entorno de la turbina de gas; aceleraciones en la cámara de combustión de la turbina de gas; uno o varios parámetros de ajuste en la turbina de gas, en particular ajustes de las válvulas y/o relaciones de carburante y/o posiciones de los álabes directores previos.

17. Programa de ordenador con un código de programa memorizado en un soporte legible por máquina para ejecutar el procedimiento según una de las reivindicaciones precedentes, cuando el programa corre sobre un ordenador.


 

Patentes similares o relacionadas:

Puesta en servicio automática de controlador para convertidores electrónicos de potencia activos trifásicos, del 1 de Julio de 2020, de OTIS ELEVATOR COMPANY: Un sistema para modular un nivel de corriente de salida de un convertidor de potencia bidireccional conectado a una red para garantizar que se proporcione […]

Imagen de 'Sistema de control'Sistema de control, del 29 de Abril de 2020, de COVENTRY UNIVERSITY: Un sistema de control para controlar una instalación , comprendiendo el sistema de control un bucle de retroalimentación que incluye un integrador […]

Procedimiento y aparato de administración de energía eléctrica y dispositivo electrónico, del 1 de Enero de 2020, de Guangdong OPPO Mobile Telecommunications Corp., Ltd: Un procedimiento de administración de energía eléctrica, aplicado en un dispositivo electrónico cargado por un adaptador de alimentación eléctrica […]

MÉTODO DE CONTROL DE UN CONVERTIDOR ELECTRÓNICO CC/CA TRIFÁSICO CON FALLO EN UNA FASE, del 19 de Diciembre de 2019, de UNIVERSIDAD POLITECNICA DE MADRID: Método de control de un convertidor electrónico CC/CA trifásico con fallo en una fase. Se divulga un método de control de un convertidor electrónico de CC/CA trifásico […]

Método y sistema de refrigeración redundante, del 5 de Diciembre de 2019, de Dawes, Warwick Graham Andrew: Un método para implementar un sistema de refrigeración redundante para proporcionar una carga de refrigeración máxima predeterminada para el aire en un espacio acondicionado […]

Método de control de bomba, del 4 de Diciembre de 2019, de Grundfos Holding A/S: Procedimiento de control de bombas para controlar el funcionamiento de un sistema der bombas con al menos dos equipos de bombas , que están dispuestos en paralelo […]

MÉTODO Y SISTEMA DE CONTROL PREDICTIVO DE UN CONVERTIDOR CC/CA, del 2 de Diciembre de 2019, de UNIVERSIDAD POLITECNICA DE MADRID: Método y sistema de control predictivo de un convertidor CC/CA. Se divulga un método y un sistema de control predictivo de un convertidor CC/CA para transmisión […]

Equilibrio de par síncrono en sistemas de múltiples bombas, del 5 de Noviembre de 2019, de ITT Manufacturing Enterprises LLC: Un método de control en un sistema que tiene múltiples bombas (18a-18d), en donde las múltiples bombas (18a-18d) se accionan y funcionan conjuntamente […]

Utilizamos cookies para mejorar nuestros servicios y mostrarle publicidad relevante. Si continua navegando, consideramos que acepta su uso. Puede obtener más información aquí. .