Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas.

La presente invención se refiere a un método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas empleando múltiples motores de búsqueda,

caracterizado porque: a) se modelizan las puntuaciones calculadas en cada motor; b) se incluye la presencia de parámetros de concordancia; c) se modeliza la distribución de meta-puntuaciones mediante funciones de distribución; d) se construyen las puntuaciones del péptido y de la proteína precursora. Entre las principales ventajas que presenta la invención, cabe citar su flexibilidad para ser aplicada a un número arbitrario de motores, el empleo de parámetros de concordancia que agregan de información adicional no disponible con un solo motor, el aumento del número de péptidos- proteínas identificados o su versatilidad para incorporar otras fuentes de información adicionales, en función del tipo de experimento analizado.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/ES2010/070445.

Solicitante: CONSEJO SUPERIOR DE INVESTIGACIONES CIENTIFICAS.

Nacionalidad solicitante: España.

Inventor/es: RAMOS FERNANDEZ, ANTONIO, ALBAR RAMIREZ,JUAN PABLO.

Fecha de Publicación: 7 de Agosto de 2013.

Clasificación Internacional de Patentes:

G01N33/68 FISICA. › G01 METROLOGIA; ENSAYOS. › G01N INVESTIGACION O ANALISIS DE MATERIALES POR DETERMINACION DE SUS PROPIEDADES QUIMICAS O FISICAS (procedimientos de medida, de investigación o de análisis diferentes de los ensayos inmunológicos, en los que intervienen enzimas o microorganismos C12M, C12Q). › G01N 33/00 Investigación o análisis de materiales por métodos específicos no cubiertos por los grupos G01N 1/00 - G01N 31/00. › en los que intervienen proteínas, péptidos o aminoácidos.
G06F19/00

PDF original: ES-2432677_T3.pdf

Fragmento de la descripción:

Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas

CAMPO DE LA INVENCIÓN

La presente invención se inscribe dentro del campo de los métodos de identificación y caracterización estructural de proteínas a gran escala mediante técnicas de espectrometría de masas.

ANTECEDENTES DE LA INVENCIÓN

La Proteómica es una de las ciencias de la era post-genómica que posee un mayor impacto en la biotecnología moderna, pues comprende la identificación y cuantificación de grandes cantidades de proteínas en matrices extremadamente complejas (fluidos biológicos, tejidos o cultivos celulares, entre otras) . Actualmente, las técnicas de mayor éxito y relevancia académica e industrial empleadas en proteómica son aquéllas basadas en espectrometría de masas en tándem (MS/MS) , que consisten en la extracción de las proteínas de la muestra a analizar, la digestión de dichas proteínas con enzimas u otros agentes químicos para obtener péptidos (más fáciles de analizar) , separar dichos péptidos habitualmente mediante técnicas cromatográficas, e introducirlos en un espectrómetro de masas en forma ionizada para medir su masa y fragmentarlos dentro del espectrómetro con el objetivo de obtener información estructural, de modo que permita la identificación de las proteínas conformadas por los péptidos analizados.

La investigación actual en Proteómica basada en espectrometría de masas en tándem comprende la generación de grandes volúmenes de datos que contienen típicamente entre miles y millones de espectros de masas. Dichos espectros son asignados a secuencias de péptidos registradas en bases de datos, empleando programas informáticos denominados motores de búsqueda. En el desarrollo histórico de la Proteómica basada en MS/MS, dado el alto número de espectros involucrados en los análisis, la validación manual de la correspondencia espectro-péptido se ha convertido en poco tiempo en impracticable, por lo que se ha hecho necesario el desarrollo de procedimientos automáticos no manejados por el usuario, que permitan identificar los péptidos analizados, así como descartar las correspondencias espurias (conocidas como falsas detecciones o falsos positivos) . Estos procedimientos comprenden el empleo de algoritmos basados en sistemas de puntuación estadística para clasificar cada espectro analizado en una muestra, de forma que, cuanto mayor sea la puntuación obtenida, mayor es la probabilidad de que la identificación espectro-péptido sea la correcta.

Actualmente, las diferencias existentes entre los distintos motores de búsqueda del mercado se derivan del preprocesado y la normalización de los espectros MS/MS analizados, como consecuencia del empleo de distintos modelos estadísticos y métodos numéricos en el sistema de puntuación de cada motor. Estas diferencias suponen el principal problema a la hora de analizar espectros MS/MS empleando múltiples motores de búsqueda, ya que algunassecuencias de péptidos identificadas correctamente en alguno de los motores, pueden no serlo en otros. Éste es un hecho ampliamente conocido por los espectrometristas experimentados. La presente invención comprende un método de búsqueda combinada empleando múltiples motores (definida de aquí en adelante como meta-búsqueda) orientado a la solución de este inconveniente, así como a la optimización de las técnicas de análisis de los espectros obtenidos mediante MS/MS. Este método proporciona también un criterio generalizado de puntuación (que definimos como metapuntuación) de los resultados obtenidos por los distintos motores de bases de datos empleados, mediante una modelización estadística suficientemente robusta que permita obtener una identificación espectro-péptido única.

A pesar de los beneficios potenciales que posee un método de meta-búsqueda con múltiples motores, pocos son hasta la fecha los intentos que se han realizado en esta dirección. Entre los más relevantes, cabe citar los trabajos desarrollados por Rohrbough et al [1], Higgs et al [2], Searle et al [3] y Alves et al [4]. Por otra parte, dentro de estado de la técnica relacionado con la investigación en proteómica, es más abundante la existencia de productos comerciales con opciones de búsqueda comparativa (lo que difiere del concepto de meta-búsqueda) utilizando varios motores que presentan algunas aplicaciones informáticas del mercado, tales como la opción “InChorus” del motor de búsqueda PEAKS (distribuido por Bioinformatics Solutions Inc.) , el sistema de análisis de datos Rosetta Elucidator (distribuido por Rosetta Biosoftware) , la plataforma de análisis Proteome Discoverer (distribuida por Thermo Fisher Scientific Inc.) o el motor Phenyx, distribuido por Geneva Bioinformatics SA.

Otra aplicación de este campo de la técnica es la implementación de los métodos de búsqueda en dispositivos de análisis de péptidos y proteínas que combinan tanto hardware como software, y son comercializados de forma autónoma como estaciones de trabajo “plug-and-play” o como servidores que permiten ser empleados simultáneamente por múltiples usuarios. Un ejemplo de este tipo de dispositivos sería la estación de trabajo Sorcerer 2, comercializada por la empresa Sage-N Research, Inc., o el servidor configurable distribuido de forma conjunta por IBM y Thermo Electron Corporation. Estos dispositivos tampoco integran, hasta la fecha, el uso simultáneo de varios motores mediante un método de meta-búsqueda.

Si bien la presente invención comparte algunos planteamientos y objetivos con cada una de las técnicas anteriormente citadas, es el único de todos los métodos que presenta el siguiente conjunto de ventajas:

- El método de meta-búsqueda y su sistema de meta-puntuación agrega información adicional que no puede ser obtenida mediante la búsqueda con un solo motor.

- Emplea una modelización estadística robusta que permite la elección de una única combinación de secuencia de péptidos, carga eléctrica y composición química por espectro (a diferencia de los métodos empleados por PEAKS, Rosetta Elucidator, Proteome Discoverer y Phenyx, que únicamente usan los resultados de múltiples motores con fines comparativos, sin la posibilidad de utilizar una estadística común y un sistema común de meta-puntuación) .

- Este método es completamente generalizable para el empleo de cualquier número de motores de búsqueda (a diferencia de los métodos propuestos en las Referencias [1] y [2], cuya generalización a más de dos motores no resulta factible) .

- Emplea un método estándar aplicable a los resultados de cualquier motor de búsqueda para obtener las funciones de distribución estadística, a diferencia del método descrito en la Referencia [3] y su implementación comercial en la aplicación Scaffold (distribuida por Proteome Software Inc.) , cuya extensión a más de los tres motores estudiados necesitaría encontrar una distribución satisfactoria para cada nuevo motor de búsqueda utilizado.

- Integra en su formulación el empleo de parámetros de concordancia, definidos como el número de otros motores de búsqueda que han proporcionado el mismo péptido candidato que un motor dado. El empleo de parámetros de concordancia no se contempla en el método planteado en la Referencia [4], perdiéndose a causa de su ausencia una parte valiosa de la información, que contribuye sensiblemente al incremento del número péptidos identificados.

- Optimiza automáticamente los valores de todos los parámetros involucrados en el proceso a través de modelado estadístico, sin que sea necesario definir ningún otro tipo de filtro, mecanismo de puntuación arbitraria o predefinir valores para los coeficientes de estos últimos, a diferencia de los métodos basados en mecanismos arbitrarios de filtros múltiples o de puntuación arbitraria descritos en las referencias [4] y [5].

- En cuanto a la detección de proteínas, se emplea un método estadístico riguroso, no sesgado, que emplea un filtrado definido por las tasas de error en las asignaciones secuencia-péptido.

- Adicionalmente, el método reivindicado es suficientemente flexible como para incorporar otras fuentes de información adicionales a la concordancia del motor, tales como el filtrado mediante el error de masa del ión precursor de la secuencia (definido como la diferencia entre la masa teórica de un ión de péptido y la medición de la masa obtenida por el espectrómetro, ya sea utilizando su masa molecular o su relación masa/carga, m/Z) , el error en el tiempo de retención (definido como el tiempo característico de retención durante la separación cromatográfica) , el error de predicción del punto isoeléctrico (similar... [Seguir leyendo]

Reivindicaciones:

1. Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas y búsqueda en bases de datos de secuencias empleando, al menos, dos motores diferentes de búsqueda, en el que se obtienen modelos de distribución de puntuaciones de identificación espectro-péptido para péptidos candidatos identificados por cada uno de dichos motores y se asigna un valor de probabilidad o una tasa de error a partir de estos modelos a cada puntuación, en el que:

a) Se modelizan las puntuaciones de identificación espectro-péptido para péptidos candidatos calculadas en cada motor por medio de funciones de distribución Lambda generalizadas (GLD) , calculando los valores de probabilidad de las identificaciones espectro-péptido;

y caracterizado porque b) Se calcula la contribución del solapamiento a los resultados del péptido candidato entre los distintos motores utilizados, usando parámetros de concordancia de las identificaciones péptido-secuencia, en el que esos parámetros coincidentes se definen como el número de motores de búsqueda que proporcionan el mismo candidato péptido provisto por otros motores;

c) para el grupo de todos los motores de búsqueda usados, se construyen meta-puntuaciones de identificación espectro-péptido a partir de los valores de la probabilidad de identificación espectro-péptido de la etapa (a) y los parámetros de concordancia usados en la etapa (b) ;

d) Las meta-puntuaciones construidas en la etapa (c) se modelizan utilizando funciones de distribución Lambda generalizadas (GLD) , obteniendo la el valor de probabilidad de la identificación espectro-péptido o la tasa de error para obtener una clasificación estadística de la identificación espectro-péptido, para el grupo de todos los motores de búsqueda usados.

2. Método según la reivindicación 1, en el que las bases de datos de secuencias utilizadas son bases de datos híbridas diana o señuelo.

3. Método según cualquiera de las reivindicaciones 1-2, caracterizado porque la tasa de error empleada viene dada por la tasa de falsa detección (FDR) .

4. Método según cualquiera de las reivindicaciones 1-2, caracterizado porque la tasa de error empleada viene dada por la tasa de impacto en señuelo (DHR) , o por la probabilidad de obtener al menos un falso positivo (FWER) .

5. Método según cualquiera de las reivindicaciones 1-4, caracterizado porque se asigna un coeficiente de peso distinto a cada motor durante la fase de meta-puntuación, siendo éste establecido a priori o calculado en función de cualquier característica de los motores y/o las bases de datos de secuencias empleados, por la cual se puede favorecer los resultados de unos motores frente a otros.

6. Método según cualquiera de las reivindicaciones 1-5, caracterizado porque se establece una relación entre la metapuntuación calculada para una identificación espectro-péptido y las características de la secuencia del péptido candidato, tales como su longitud, presencia o ausencia de sub-secuencias o motivos estructurales, o concordancia de la secuencia del péptido con lo esperado a partir del mecanismo de corte del agente químico utilizado en la digestión de las proteínas.

7. Método según cualquiera de las reivindicaciones 1-6, caracterizado porque se establece una relación entre la metapuntuación calculada para una identificación espectro-péptido y otras variables medibles, como el error observado en la medición de la masa del precursor, la movilidad iónica, la predicción del tiempo de retención durante la separación cromatográfica, la predicción del punto isoeléctrico en una posible separación por isoelectroenfoque, o medidas similares obtenidas a partir de variantes de estas técnicas, o transformaciones de dichas medidas.

8. Método según la reivindicación 7, caracterizado porque se obtiene, para cada espectro, las mejores puntuaciones de cada uno de los motores, se somete a dichas puntuaciones a meta-puntuación, utilizando una o más de las siguientes fuentes de información adicionales:

-relativas a las características físico-químicas de las secuencias de péptidos candidatas tales como el error m/z en el ion precursor, el error en el tiempo de retención o el error en el tiempo de retención de fragmentación;

- relativas al comportamiento esperado del agente químico o la enzima que ha generado los péptidos analizados por espectrometría de masas, tales como el número de dianas internas o el número de extremos específicos;

- relativas a la generación de múltiples espectros a partir del mismo péptido, tales como formas alternativas de carga eléctrica, las firmas isotópicas, modificaciones químicas o mecanismos de fragmentación;

- relativas a las características del motor específico y a su rendimiento dependiendo del tipo de datos, tales como la carga eléctrica del ion precursor, el mecanismo de fragmentación, puntuaciones delta o puntuaciones adicionales;

- relativas al precursor de proteína o a los candidatos péptidos, tales como el precursor de proteína en un experimento completo, el precursor de proteína en una fracción de un experimento o el precursor de proteína por agrupamiento;

y se reordenan las meta-puntuaciones de cada motor, tomando la mejor meta-puntuación de cada motor para completar la fase de meta-puntuación.

9. Método según las reivindicación 8, caracterizado porque se usan las transformaciones numéricas de las fuentes adicionales de información, ya sean transformadas de orden, o transformadas no lineales de densidades de probabilidad calculadas a partir de estas fuentes adicionales de información, bien sustituyéndolas o bien en combinación con ellas, usando estas transformaciones como fuentes adicionales de información.

10. Método según cualquiera de las reivindicaciones 1-9, caracterizado porque se hace uso de parámetros de concordancia extendidos, definidos como el número de otros motores que proporcionan, como mejor candidato, el mismo péptido que uno de los candidatos dados proporcionado por un motor.

11. Método según cualquiera de las reivindicaciones 1-10, caracterizado porque se define el parámetro de concordancia en su forma ponderada mediante el uso de coeficientes de peso.

12. Método según cualquiera de las reivindicaciones 1-11, caracterizado porque distintas búsquedas efectuadas sobre la misma colección de espectros utilizando distintas combinaciones de parámetros configurables del mismo motor se tratan como búsquedas efectuadas por motores distintos.

13. Método según cualquiera de las reivindicaciones 1-12, en el que se establece una relación entre la meta-puntuación calculada para una identificación espectro-péptido e información estructural obtenida mediante interpretación de novo del espectro MS/MS.

14. Método según cualquiera de las reivindicacione.

8. 9, caracterizado porque las fuentes adicionales de información se integran en etapas en el proceso de meta-puntuación, generando meta-puntuaciones para cada uno de los motores y estableciendo un orden de integración de dichas fuentes adicionales de información, de forma que para un motor dado se incorpora una fuente individual adicional de información de la meta-puntuación, ignorando la información de concordancia con otros motores, y se obtiene una nueva meta-puntuación, repitiendo este proceso hasta que todas las fuentes adicionales de información se han incorporado a la meta-puntuación y posteriormente añadiendo la información de concordancia.

15. Método según cualquiera de las reivindicaciones 1 -14, en el que los distintos motores son integrados en etapas en el proceso de meta-puntuación, estableciendo un orden de integración de los distintos motores de búsqueda, empezando con la integración de dos motores, y tratando la meta-puntuación en este proceso como un nuevo motor “de consenso”, tomando posteriormente este resultado e integrándolo con un tercer motor, repitiendo sucesivamente el proceso hasta que todos los motores usados en el proceso han sido incorporados al “consenso”.

16. Dispositivo destinado al análisis de resultados de espectrometría de masas en tándem, comprendiendo dicho dispositivo medios orientados a conformar un sistema de análisis de datos para la identificación de péptidos y proteínas, caracterizado porque implementa un método según cualquiera de las reivindicaciones 1-15.

FIG. 1

REFERENCIAS CITADAS EN LA DESCRIPCIÓN

La lista de referencias citadas por el solicitante es, únicamente, para conveniencia del lector. No forma parte del documento de patente europea. Si bien se ha tenido gran cuidado al compilar las referencias, no pueden excluirse errores u omisiones y la OEP declina toda responsabilidad a este respecto.

Literatura no patente citada en la descripción

Patentes similares o relacionadas:

Inmunomoduladores, del 29 de Julio de 2020, de BRISTOL-MYERS SQUIBB COMPANY: Un compuesto de la fórmula (I) **(Ver fórmula)** o una sal farmacéuticamente aceptable del mismo, en donde: A se selecciona de **(Ver fórmula)** en donde: […]

Métodos y composiciones para el diagnóstico y pronóstico de lesión renal e insuficiencia renal, del 29 de Julio de 2020, de Astute Medical, Inc: Un método para evaluar el estado renal en un sujeto, que comprende: realizar una pluralidad de ensayos configurados para detectar una […]

Neuregulina para tratar la insuficiencia cardíaca, del 29 de Julio de 2020, de Zensun (Shanghai) Science & Technology, Co., Ltd: Neuregulina para usar en un método para tratar la insuficiencia cardíaca crónica en un paciente, donde el paciente tiene un nivel plasmático de NT-proBNP […]

Método para llevar a cabo el seguimiento de la enfermedad de Gaucher, del 15 de Julio de 2020, de Centogene GmbH: Un método para determinar la evolución de la enfermedad de Gaucher en un sujeto, que comprende la etapa de determinar en varios puntos en el […]

Procedimiento para evaluación de la función hepática y el flujo sanguíneo portal, del 15 de Julio de 2020, de The Regents of the University of Colorado, a body corporate: Procedimiento in vitro para la estimación del flujo sanguíneo portal en un individuo a partir de una única muestra de sangre o suero, comprendiendo el procedimiento: […]

Detección de interacciones proteína a proteína, del 15 de Julio de 2020, de THE GOVERNING COUNCIL OF THE UNIVERSITY OF TORONTO: Un método para medir cuantitativamente la fuerza y la afinidad de una interacción entre una primera proteína de membrana o parte de la misma y una […]

Biomarcadores de pronóstico y predictivos y aplicaciones biológicas de los mismos, del 1 de Julio de 2020, de INSTITUT GUSTAVE ROUSSY: Un método para evaluar la sensibilidad o la resistencia de un tumor frente a un agente antitumoral, que comprende evaluar la cantidad de complejo eiF4E-eiF4G (complejo Cap-ON) […]

Métodos de monitorización terapéutica de profármacos de ácido fenilacético, del 24 de Junio de 2020, de Immedica Pharma AB: Glicerilo tri-[4-fenilbutirato] (HPN-100) para su uso en un método para tratar un trastorno del ciclo de la urea en un sujeto que tiene discapacidad […]