Métodos para la determinación precisa de datos de secuencia y de la posición de bases modificadas.

Un método de determinación de la secuencia de una muestra de ácidos nucleicos que comprende:

a. el suministro de una molécula de ácidos nucleicos circular que comprende al menos una unidad de inserto-muestra que comprende un inserto de ácidos nucleicos y una muestra de ácidos nucleicos, en la que el inserto tiene una secuencia conocida;

b. la obtención de los datos de secuencia que comprende la secuencia de al menos dos unidades de inserto-muestra, en la que se produce una molécula de ácidos nucleicos que comprende al menos dos unidades de inserto-muestra;

c. el cálculo de las puntuaciones de las secuencias de al menos dos insertos de los datos de secuencia de la etapa

(b) al comparar las secuencias con la secuencia conocida del inserto;

d. aceptar o rechazar al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos de los datos de secuencia de la etapa (b) según las puntuaciones de una o las dos secuencias de los insertos inmediatamente aguas arriba y aguas abajo de la repetición de la secuencia de la muestra de ácidos nucleicos;

e. la recopilación de un grupo de secuencias aceptadas que comprende al menos una repetición de la secuencia de la muestra de ácidos nucleicos aceptada en la etapa (d); y

f. la determinación de la secuencia de la muestra de ácidos nucleicos usando el grupo de secuencias aceptadas en el que la aceptación o rechazo de al menos dos de las repeticiones de la secuencia de la muestra de ácidos nucleicos de los datos de secuencia de la etapa (b) comprende la aceptación de aquellas de las al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos que están inmediatamente aguas arriba o aguas abajo de una secuencia del inserto de muestra con una puntuación superior o igual a un límite predeterminado, y el rechazo de aquellas que no lo están.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/CN2009/074851.

Solicitante: INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE.

Nacionalidad solicitante: Taiwan, Provincia de China.

Dirección: No. 195, Sec. 4 Chung Hsing Road Chutung Hsinchu 31040, Taiwan TAIWAN.

Inventor/es: Chien,Hung-Chi, PAN,CHAO-CHI, FANN,JENN-YEH, CHIOU,CHUNG-FAN, CHEN,HUI-LING.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION C — QUIMICA; METALURGIA > BIOQUIMICA; CERVEZA; BEBIDAS ALCOHOLICAS; VINO; VINAGRE;... > PROCESOS DE MEDIDA, INVESTIGACION O ANALISIS EN LOS... > Procesos de medida, investigación o análisis en... > C12Q1/68 (en los que intervienen ácidos nucleicos)
  • SECCION G — FISICA > METROLOGIA; ENSAYOS > INVESTIGACION O ANALISIS DE MATERIALES POR DETERMINACION... > G01N37/00 (Detalles no cubiertos por ningún grupo de esta subclase)

PDF original: ES-2528253_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Métodos para la determinación precisa de datos de secuencia y de la posición de bases modificadas 5 Campo de la invención

[1] La presente invención se refiere a métodos de determinación de la secuencia de ácidos nucleicos y de identificación de las posiciones de bases modificadas en ácidos nucleicos.

Antecedentes de la invención

[2] Los recientes desarrollos en la tecnología de secuenciación del ADN han planteado la posibilidad de un tipo de medicina preventiva muy personalizada a nivel genómico. Además, la posibilidad de obtener rápidamente grandes cantidades de datos de secuencia a partir de muchos individuos en una o más poblaciones podría marcar el

comienzo de una nueva fase de la revolución genómica en la ciencia biomédica.

[3] Las diferencias de bases individuales entre genotipos pueden tener efectos fenotípicos importantes. Por ejemplo, se han identificado más de 3 mutaciones en el gen que codifica la fenilalanina hidroxilasa (PAH), la enzima que convierte la fenilalanina a tirosina en el catabolismo de la fenilalanina y en la biosíntesis de proteínas y

neurotransmisores que produce una actividad enzimática deficiente y da lugar a los trastornos hiperfenilalaninemia y fenilcetonuria. Véase, por ejemplo, Jennings y col., Eur J Hum Genet 8, 683-696 (2).

[4] Los datos de secuencia se pueden obtener usando el método de secuenciación de Sanger, en el que análogos de nucleótidos terminadores de cadena didesoxi marcados se incorporan a una reacción de extensión del

cebador en bruto y se resuelven y analizan productos de longitudes diferentes para determinar la identidad del terminador incorporado. Véase, por ejemplo, Sanger y col., Proc Nati Acad Sci USA 74, 5463-5467 (1997). De hecho, muchas secuencias genómicas se han determinado usando esta tecnología. No obstante, el coste y la velocidad para obtener los datos de secuencia mediante la secuenciación de Sanger pueden ser una limitación.

[5] Nuevas tecnologías de secuenciación pueden producir datos de secuencia a una velocidad sorprendente de cientos de megabases al día, con un coste por base inferior al de la secuenciación de Sanger. Véase, por ejemplo, Kato, Int J Clin Exp Med 2, 193-22 (29). No obstante, los datos en bruto obtenidos usando estas tecnologías de secuenciación pueden ser más propensos a errores que la secuenciación de Sanger tradicional. Esto puede ser el resultado de obtener información a partir de moléculas de ADN individuales en lugar de 35 una población mayor.

[6] Por ejemplo, en la secuenciación por síntesis de moléculas sencillas, se podría saltar una base debido a que el dispositivo ignore una señal débil, o debido a la falta de señal como resultado del blanqueamiento del colorante fluorescente, o debido a que la polimerasa actúe demasiado deprisa para su detección por el dispositivo.

Todos los casos anteriores producen un error de deleción de la secuencia en bruto. De forma similar, también se pueden producir errores de mutación y errores de inserción a una mayor frecuencia por razones tan simples como señales potencialmente más débiles y reacciones más rápidas que en los métodos convencionales.

[7] Los datos de secuencia de baja precisión son más difíciles de ensamblar. En la secuenciación a gran 45 escala, tal como la secuenciación de un genoma eucariota completo, las moléculas de ADN están fragmentadas en

trozos más pequeños. Estos trozos se secuencian en paralelo, y a continuación las lecturas resultantes se ensamblan para reconstruir la secuencia completa de las moléculas de ADN de la muestra original. La fragmentación se puede conseguir, por ejemplo, mediante cizallamiento mecánico o escisión enzimática.

[8] El ensamblaje de lecturas de secuencia pequeñas en un gran genoma requiere que las lecturas fragmentadas sean suficientemente precisas para que se puedan agrupar juntas de forma correcta. Esto generalmente es cierto para los datos de secuenciación en bruto generados en el método de Sanger, que puede tener una precisión de los datos en bruto superior al 95 %. La tecnología de secuenciación precisa de moléculas sencillas se podría aplicar para detectar modificaciones de bases individuales o mutaciones de muestras de ácidos 55 nucleicos. No obstante, la precisión de los datos en bruto para las tecnologías de secuenciación de moléculas sencillas pueden ser inferiores debido a las limitaciones descritas anteriormente. La precisión de las lecturas individuales de datos de secuencia en bruto puede ser sólo del 6 al 8 %. Véase, por ejemplo, Harris y col., Science 32:16-19 (28). Así, sería útil proporcionar métodos precisos de secuenciación de moléculas sencillas.

[9] Además, la metilación del ADN desempeña un papel crítico en la regulación de la expresión génica; por ejemplo, la metilación de los promotores con frecuencia da lugar al silenciamiento transcripcional. También se sabe que la metilación es un mecanismo esencial en la impronta genómica y en la inactivación del cromosoma X. No obstante, el progreso para descifrar los perfiles de metilación genómicos completos y complejos ha sido limitado. Por tanto, podrían ser útiles métodos de determinación de perfiles de metilación del ADN de alto rendimiento, más 65 incluso si los métodos también proporcionan una determinación de secuencia precisa.

[1] El documento de Estados Unidos 24/248161 A1 desvela un método para la secuenclación de un ácido nucleico. El método Incluye el suministro de un complejo circular molde con cebador de anclaje Imprimado y la combinación del complejo con pollmerasa, y nucleótidos para generar coplas complementarias lineales y concatenadas del molde circular.

[11] El documento de Estados Unidos 26/61754 A1 desvela un método para la secuenciación de moléculas de ADN diana. La reacción de la secuencia incluye un complejo individual de una enzima de polimerización por desplazamiento de la cadena y un ADN diana circular, que se Inmoviliza por confinamiento óptico.

Sumario de la invención

[12] La Invención está limitada por las reivindicaciones 1-24.

[13] En algunas realizaciones, se proporciona un método de determinación de la secuencia de una muestra 15 de ácidos nucleicos que comprende (a) el suministro de una molécula de ácidos nucleicos circular que comprende al

menos una unidad de Inserto-muestra que comprende un inserto de ácidos nucleicos y una muestra de ácidos nucleicos, en la que el Inserto tiene una secuencia conocida; (b) la obtención de los datos de secuencia que comprende la secuencia de al menos dos unidades de inserto-muestra, en la que se produce una molécula de ácidos nucleicos que comprende al menos dos unidades de inserto-muestra; (c) el cálculo de las puntuaciones de 2 las secuencias de al menos dos Insertos de los datos de secuencia de la etapa (b) al comparar las secuencias con la secuencia conocida del inserto; (d) aceptar o rechazar al menos dos de las repeticiones de la secuencia de la muestra de ácidos nucleicos de los datos de secuencia de la etapa (b) según las puntuaciones de una o las dos secuencias de los insertos inmediatamente aguas arriba y aguas abajo de la repetición de la secuencia de la muestra de ácidos nucleicos; (e) la recopilación de un grupo de secuencias aceptadas que comprende al menos una 25 repetición de la secuencia de la muestra de ácidos nucleicos aceptada en la etapa (d); y (f) la determinación de la secuencia de la muestra de ácidos nucleicos usando el grupo de secuencias aceptadas. En el presente documento se desvela un sistema que comprende un aparato de secuenciación unido de manera operable a un aparato de computación que comprende un procesador, almacenamiento, un sistema de bus, y al menos un elemento de interfaz... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de determinación de la secuencia de una muestra de ácidos nucleicos que comprende:

a. el suministro de una molécula de ácidos nucleicos circular que comprende al menos una unidad de inserto- muestra que comprende un inserto de ácidos nucleicos y una muestra de ácidos nucleicos, en la que el inserto tiene una secuencia conocida;

b. la obtención de los datos de secuencia que comprende la secuencia de al menos dos unidades de insertólo muestra, en la que se produce una molécula de ácidos nucleicos que comprende al menos dos unidades de inserto-

muestra;

c. el cálculo de las puntuaciones de las secuencias de al menos dos insertos de los datos de secuencia de la etapa (b) al comparar las secuencias con la secuencia conocida del inserto;

d. aceptar o rechazar al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos de los datos de secuencia de la etapa (b) según las puntuaciones de una o las dos secuencias de los insertos inmediatamente aguas arriba y aguas abajo de la repetición de la secuencia de la muestra de ácidos nucleicos;

e. la recopilación de un grupo de secuencias aceptadas que comprende al menos una repetición de la secuencia de la muestra de ácidos nucleicos aceptada en la etapa (d); y

f. la determinación de la secuencia de la muestra de ácidos nucleicos usando el grupo de secuencias aceptadas

en el que la aceptación o rechazo de al menos dos de las repeticiones de la secuencia de la muestra de ácidos nucleicos de los datos de secuencia de la etapa (b) comprende la aceptación de aquellas de las al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos que están inmediatamente aguas arriba o aguas abajo de una secuencia del inserto de muestra con una puntuación superior o igual a un límite predeterminado, y el rechazo de aquellas que no lo están.

2. El método de la reivindicación 1, en el que la obtención de los datos de secuencia comprende la secuenciación de una sola molécula.

3. El método de la reivindicación 1, en el que el suministro de una molécula de ácidos nucleicos circular 35 comprende la ligación de la muestra de ácidos nucleicos al inserto de ácidos nucleicos para formar la molécula de

ácidos nucleicos circular.

4. El método de la reivindicación 1, en el que la molécula de ácidos nucleicos circular comprende al menos dos unidades de inserto-muestra.

5. El método de la reivindicación 1, en el que el inserto de ácidos nucleicos comprende un promotor y la síntesis de la molécula de ácidos nucleicos producto comprende la puesta en contacto de promotor con una ARN polimerasa que reconoce el promotor seguido de la síntesis de una molécula de ácidos nucleicos producto que comprende restos de ribonucleótidos.

6. El método de la reivindicación 1, en el que el inserto de ácidos nucleicos tiene una longitud que oscila entre 14 y 2 restos de nucleótidos.

7. El método de la reivindicación 1, en el que el grupo de secuencias aceptadas se encuentra en una 5 forma seleccionada entre una variable multi-elementos y una cadena de datos sencilla que comprende los datos de

secuencia de la etapa (b) que han sido procesados para borrar, sobrescribir, u omitir repeticiones de la secuencia de la muestra de ácidos nucleicos rechazada en la etapa (e).

8. El método de la reivindicación 1, en el que el grupo de secuencias aceptadas se encuentra en forma 55 de variable multi-elementos de un tipo seleccionado entre una lista, conjunto, hash, y matriz.

9. El método de la reivindicación 1, en el que en la etapa (d) se aceptan al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos, y la determinación de la secuencia de la muestra de ácidos nucleicos comprende la determinación de una secuencia consenso basada en las al menos dos repeticiones de la secuencia

de la muestra de ácidos nucleicos aceptada en la etapa (d).

1. El método de la reivindicación 9, en el que la secuencia consenso comprende bases representadas probabilísticamente en al menos una posición en la que difieren las al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos aceptada en la etapa (d).

11. El método de la reivindicación 9, en el que en la etapa (d) se aceptan al menos tres repeticiones de la

secuencia de la muestra de ácidos nucleicos, y la determinación de la secuencia consenso comprende la determinación de los votos mayoritarios de las al menos tres repeticiones de la secuencia de la muestra de ácidos nucleicos aceptada en la etapa (d).

12. El método de la reivindicación 9, en el que la secuencia consenso comprende niveles de confianza.

13. El método de la reivindicación 12, en el que los niveles de confianza se expresan en una forma

seleccionada entre la frecuencia de bases, el contenido de información, y la puntuación de calidad de Phred.

14. El método de la reivindicación 12, en el que las etapas (b)-(f) de la reivindicación 1 se llevan a cabo en

tiempo real, y la secuencia consenso y los niveles de confianza se actualizan en tiempo real.

15. El método de la reivindicación 14, en el que el método se realiza hasta que se alcanza un nivel de confianza mínimo establecido en un porcentaje preseleccionado de posiciones de la secuencia consenso.

16. El método de la reivindicación 15, que además comprende la generación de una alerta cuando el porcentaje de posiciones preseleccionadas alcanza el nivel de confianza mínimo establecido.

17. El método de la reivindicación 1, que además comprende la repetición de las etapas de la

reivindicación 1 con al menos otra muestra de ácidos nucleicos de la misma fuente, especie, o cepa que la muestra

de ácidos nucleicos de la reivindicación 1 que tiene una secuencia que se solapa parcialmente con la secuencia de la muestra de ácidos nucleicos de la reivindicación 1, determinando así al menos otra secuencia, y ensamblando la al menos otra secuencia con la secuencia de la etapa (f) para formar un contigo.

18. El método de la reivindicación 1, en el que se usan las puntuaciones de la etapa (c) para estimar un

nivel de confianza de los datos de secuencia de la etapa (b) en su conjunto.

19. El método de la reivindicación 1, en el que el cálculo de las puntuaciones comprende la determinación del número de desemparejamientos entre los al menos dos insertos de los datos de secuencia y la secuencia

conocida del Inserto.

2. El método de la reivindicación 1, en el que el cálculo de las puntuaciones comprende la determinación del porcentaje de identidad de los al menos dos insertos de los datos de secuencia con la secuencia conocida del

inserto.

21. El método de la reivindicación 1, en el que el cálculo de las puntuaciones comprende realizar un alineamiento entre los al menos dos insertos de los datos de secuencia y la secuencia conocida del Inserto.

22. El método de la reivindicación 1, en el que las puntuaciones se generan en una base seleccionada en 4 base a un recuento y en base a un porcentaje.

23. Un sistema que comprende un aparato de secuenciación unido de manera operable a un aparato de computación que comprende un procesador, almacenamiento, un sistema de bus, y al menos un elemento de interfaz de usuario, el almacenamiento que está codificado mediante programación que comprende un sistema

operativo, un software de interfaz de usuario, e instrucciones que, cuando las ejecuta el procesador, opcionalmente mediante la introducción por parte del usuario, realiza un método que comprende:

a. la obtención de los datos de secuencia de una molécula de ácidos nucleicos circular que comprende al menos una unidad de inserto-muestra que comprende un inserto de ácidos nucleicos y una muestra de ácidos nucleicos, en

la que:

(i) el inserto tiene una secuencia conocida,

(ii) los datos de secuencia comprenden la secuencia de al menos dos unidades de inserto-muestra, y 55

(iii) se produce una molécula de ácidos nucleicos que comprende al menos dos unidades de inserto-muestra;

b. el cálculo de las puntuaciones de las secuencias de al menos dos Insertos de los datos de secuencia de la etapa (a) al comparar las secuencias con la secuencia conocida del inserto;

c. aceptar o rechazar al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos de los datos de secuencia de la etapa (a) según las puntuaciones de una o las dos secuencias de los Insertos inmediatamente aguas arriba y aguas abajo de la repetición de la secuencia de la muestra de ácidos nucleicos;

d. la recopilación de un grupo de secuencias aceptadas que comprende al menos una repetición de la secuencia de la muestra de ácidos nucleicos aceptada en la etapa (c); y

e. la determinación de la secuencia de la muestra de ácidos nucleicos usando el grupo de secuencias aceptadas,

en el que la aceptación o rechazo de al menos dos de las repeticiones de la secuencia de la muestra de ácidos 5 nucleicos de los datos de secuencia de la etapa (b) comprende la aceptación de aquellas de las al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos que están inmediatamente aguas arriba o aguas abajo de una secuencia del inserto de muestra con una puntuación superior o igual a un límite predeterminado, y el rechazo de aquellas que no lo están, y

en el que se usa un resultado del sistema para producir al menos una de (i) una secuencia de una muestra de ácidos nucleicos o (¡i) una indicación de que existe una base modificada en al menos una posición en una muestra de ácidos nucleicos.

24. Un almacenamiento codificado mediante programación que comprende un sistema operativo, un

software de interfaz de usuario, e instrucciones que, cuando las ejecuta el procesador sobre un sistema que comprende un aparato de secuenciación unido de manera operable a un aparato de computación que comprende un procesador, almacenamiento, un sistema de bus, y al menos un elemento de interfaz de usuario, opcionalmente con la introducción por parte del usuario, realiza un método que comprende:

a. la obtención de los datos de secuencia de una molécula de ácidos nucleicos circular que comprende al menos una unidad de inserto-muestra que comprende un inserto de ácidos nucleicos y una muestra de ácidos nucleicos, en la que:

(i) el inserto tiene una secuencia conocida,

(ii) los datos de secuencia comprenden la secuencia de al menos dos unidades de inserto-muestra, y

(iii) se produce una molécula de ácidos nucleicos que comprende al menos dos unidades de inserto-muestra;

b. el cálculo de las puntuaciones de las secuencias de al menos dos insertos de los datos de secuencia de la etapa (a) al comparar las secuencias con la secuencia conocida del inserto;

c. aceptar o rechazar al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos de los datos de secuencia de la etapa (a) según las puntuaciones de una o las dos secuencias de los insertos inmediatamente

aguas arriba y aguas abajo de la repetición de la secuencia de la muestra de ácidos nucleicos;

d. la recopilación de un grupo de secuencias aceptadas que comprende al menos una repetición de la secuencia de la muestra de ácidos nucleicos aceptada en la etapa (c); y

e. la determinación de la secuencia de la muestra de ácidos nucleicos usando el grupo de secuencias aceptadas,

en el que la aceptación o rechazo de al menos dos de las repeticiones de la secuencia de la muestra de ácidos nucleicos de los datos de secuencia de la etapa (b) comprende la aceptación de aquellas de las al menos dos repeticiones de la secuencia de la muestra de ácidos nucleicos que están inmediatamente aguas arriba o aguas 45 abajo de una secuencia del inserto de muestra con una puntuación superior o igual a un limite predeterminado, y el rechazo de aquellas que no lo están, y

en el que el método da lugar a un resultado usado para producir al menos una de (i) una secuencia de una muestra de ácidos nucleicos o (ii) una indicación de que existe una base modificada en al menos una posición en una 5 muestra de ácidos nucleicos.