Secuenciación multi-etiqueta y análisis ecogenómico.

Un método múltiplex para determinar cuantitativamente polinucleótidos diana de dos o más muestras

, que comprende:

anclar una primera secuencia etiqueta específica de la muestra a uno o más polinucleótidos de una primera muestra;

anclar una segunda secuencia etiqueta específica de la muestra diferente de dicha primera secuencia etiqueta a uno o más polinucleótidos de una segunda muestra;

mezclar entre sí las muestras 10 etiquetadas; y

secuenciar dichos polinucleótidos que comprenden dicha primera y dicha segunda etiquetas;

en donde las etiquetas específicas de la muestra están incluidas en los cebadores para la amplificación mediante PCR y las etiquetas específicas de la muestra se anclan a los polinucleótidos por medio de amplificación mediante PCR, y en donde los cebadores para la amplificación mediante PCR comprenden, en orden 5' a 3', un radical para la inmovilización y/o una secuencia para la amplificación mediante PCR, la etiqueta de secuencia específica de la muestra y una secuencia sonda específica para una secuencia diana localizada en posición 3' con respecto a una región genética variable;

comprendiendo el método adicionalmente las etapas de:

a partir de las secuencias etiqueta incluidas en las secuencias de polinucleótidos determinadas de este modo identificar la muestra en la que se produjeron las secuencias de polinucleótidos;

a partir de las secuencias de la región genética variable incluida en las secuencias de polinucleótidos determinadas de este modo identificar las variantes concretas de dicho elemento genético variable; a partir de esta información determinar el número de veces que una o más variantes dadas aparecen en cada muestra; y

a partir del número de cada variante en los polinucleótidos determinados de este modo, cuantificar dichos polinucleótidos en dichas muestras.

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/US2007/084840.

Solicitante: BIOSPHEREX LLC.

Nacionalidad solicitante: Estados Unidos de América.

Dirección: 15 WILTSHIRE COURT EAST SUITE 200 POTOMAC FALLS, VA 20165-5677 ESTADOS UNIDOS DE AMERICA.

Inventor/es: GILLEVET,PATRICK M.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION C — QUIMICA; METALURGIA > BIOQUIMICA; CERVEZA; BEBIDAS ALCOHOLICAS; VINO; VINAGRE;... > PROCESOS DE MEDIDA, INVESTIGACION O ANALISIS EN LOS... > Procesos de medida, investigación o análisis en... > C12Q1/68 (en los que intervienen ácidos nucleicos)

PDF original: ES-2490601_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Secuenciación multi-etiqueta y análisis ecogenómico Solicitudes relacionadas Esta solicitud es una continuación de parte y reivindica el beneficio completo de prioridad de la solicitud provisional de los Estados Unidos número 60/858.948, presentada el 15 de Noviembre de 2006 por Patrick Gillevet para Multitag Sequencing and Ecogenomics Analysis.

Campo de la Invención La invención se refiere a métodos múltiplex para determinar cuantitativamente polinucleótidos diana de dos o más muestras.

Declaración de Derechos del Gobierno El trabajo descrito en la presente memoria se realizó en parte con apoyo del gobierno con la subvención Núm. 1R43DK074275-01A2 otorgada por el Instituto Nacional de la Diabetes y las Enfermedades Digestivas y del Riñón de los Estados Unidos, y por lo tanto el Gobierno de los Estados Unidos puede tener ciertos derechos en la invención.

Antecedentes Las tecnologías para la determinación de secuencias de proteínas, ARN y ADN, han sido fundamentales en el desarrollo de la biología molecular moderna. Durante los últimos quince años, la secuenciación del ADN en particular ha sido la tecnología central en una revolución en curso en el alcance y la profundidad de comprensión de la organización y la función genómica. El desarrollo continuo de la tecnología de secuenciación está, quizás, mejor simbolizado por la determinación de la secuencia completa de un genoma humano.

El proyecto de secuenciación del genoma humano sirvió para varios propósitos. Sirvió como plataforma para el desarrollo programático de la mejora de las tecnologías de secuenciación y de los esfuerzos de secuenciación del genoma. También sirvió para establecer un marco para la producción y distribución de la información de la secuenciación de proyectos de secuenciación a escala cada vez más grandes. Estos proyectos proporcionaron secuencias genómicas completas de una sucesión de organismos modelo de complementos genéticos cada vez más grandes. Estos logros, que culminaron con la realización de una secuencia del genoma humano, destacan el poder muy considerable y el rendimiento de la tecnología de secuenciación contemporánea.

Al mismo tiempo, sin embargo, ponen de relieve las limitaciones de la tecnología actual y la necesidad de considerables mejoras en la velocidad, la precisión y el coste antes de la secuenciación puede ser explotada plenamente en la investigación y la medicina. Entre las áreas que se puede ver más fácilmente que exigen avances en la tecnología de secuenciación se encuentran las aplicaciones de secuenciación clínicas que requieren información del genoma completo, las aplicaciones ambientales que involucran a múltiples organismos en mezclas, y las aplicaciones que requieren el procesamiento de muchas muestras. Estas son, por supuesto, solo unas pocas entre un gran número de áreas que se requieren o se beneficiarán en gran medida de métodos de secuenciación más capaces y menos costosos.

Hasta la fecha, prácticamente todas las secuenciaciones se han realizado mediante métodos de elongación de la cadena de Sanger. Todos los métodos de Sanger requieren la separación de los productos de elongación con una resolución de una única base. Actualmente, si bien todavía se utiliza PAGE para este propósito en algunos secuenciadores comerciales, la electroforesis capilar es el método de elección para secuenciadores de ADN de alto rendimiento. Los métodos de separación tanto basados en gel como basados en capilares consumen mucho tiempo, son costosos, y tienen un rendimiento limitado. Los métodos basados en chips, tales como Affymetrix GeneChips y secuenciación Hyseq mediante métodos de hibridación, requieren chips que pueden ser producidos solo por procesos de fabricación de capital intensivo y complejos. Estas limitaciones representan obstáculos a la utilización de secuenciación para muchos propósitos, tales como los descritos anteriormente. En parte para superar las limitaciones impuestas por la necesidad de técnicas de separación poderosas en métodos de secuenciación de terminación de la cadena y los requisitos de fabricación de los métodos basados en chips, se están desarrollando actualmente numerosas tecnologías que no requieren la separación de los productos de elongación con resolución íntegra y no requieren chips.

Una tecnología avanzada de este tipo es un método basado en cuentas, amplificación en emulsión, y pirosecuenciación desarrollado por 454 Life Sciences. (Véase Marguilles, et al. (2005) Nature 437: 376, particularmente en cuanto a los métodos mencionados anteriormente. El método utiliza una serie de etapas para depositar moléculas individuales de ADN amplificado en pocillos individuales de una placa que contiene varios millones de pocillos de picotitulación. Las etapas aseguran que cada pocillo de la placa o bien no contenga ADN o bien contenga el ADN amplificado a partir de una sola molécula original. La pirosecuenciación se lleva a cabo en los pocillos mediante la elongación de un molde de cebador de la misma manera que en la secuenciación de Sanger. La 2 15

pirosecuenciación no implica terminación de la cadena y no requiere la separación de los productos de elongación. En lugar de eso la secuenciación prosigue paso a paso mediante ciclos de adición de una sola base. En cada ciclo una de las cuatro bases -A, T, G, o C -se incluye en la reacción de elongación. Las otras tres bases se omiten. Se añade una base a la cadena en crecimiento si ésta es complementaria a la siguiente posición en el molde. Se produce luz cada vez que una base se incorpora a la secuencia complementaria en crecimiento. Interrogando con cada una de A, C, G o T sucesivamente, se puede determinar la identidad de la base en cada posición. Las reacciones de secuenciación se llevan a cabo en muchos pocillos simultáneamente. Las señales se recogen de todos los pocillos a la vez utilizando un detector de formación de imágenes. Por lo tanto, se puede determinar al mismo tiempo una multitud de secuencias.

En principio, cada pocillo que contiene un ADN emitirá una señal para solo una de las cuatro bases para cada posición. En la práctica, rondas de la misma base en dos o más posiciones sucesivas conducen a la emisión de señales proporcionalmente más fuertes para la primera posición en la ronda. En consecuencia, la lectura de la secuencia de un pocillo determinado es un poco más complicada señalando a continuación simplemente, para cada posición, cuál de las cuatro bases se añade. Sin embargo, puesto que las señales son proporcionales al número de incorporaciones, las secuencias pueden ser reconstruidas con precisión a partir de la intensidad de la señal para la mayoría de las rondas.

Se ha demostrado que la tecnología lee con precisión un promedio de alrededor de 250 bases por pocillo con una precisión aceptable. Un dispositivo ofrecido por 454 Life Sciences utiliza actualmente una "placa" de pocillos de picotitulación de 6, 4 cm 2 que contiene 1.600.000 pocillos de tamaño de picolitros para la secuenciación de aproximadamente 400.000 moldes diferentes. El rendimiento para una sola ronda utilizando esta placa actualmente es de aproximadamente 100 millones de bases en cuatro horas. Aunque se trata de un dispositivo de primera generación, su rendimiento es casi 100 veces mejor que los dispositivos de secuenciación de Sanger convencionales.

Se están desarrollando muchos otros métodos para la secuenciación de ultra-alto rendimiento por otras instituciones y empresas. La secuenciación mediante métodos de síntesis que dependen de la amplificación de la diana están siendo desarrollados y/o comercializados por George Church de la Universidad de Harvard, por Solexa, y por otros. Se han desarrollado y/o están siendo... [Seguir leyendo]

 


Reivindicaciones:

1. Un método múltiplex para determinar cuantitativamente polinucleótidos diana de dos o más muestras, que comprende:

anclar una primera secuencia etiqueta específica de la muestra a uno o más polinucleótidos de una primera muestra; anclar una segunda secuencia etiqueta específica de la muestra diferente de dicha primera secuencia etiqueta a uno o más polinucleótidos de una segunda muestra; mezclar entre sí las muestras etiquetadas; y secuenciar dichos polinucleótidos que comprenden dicha primera y dicha segunda etiquetas; en donde las etiquetas específicas de la muestra están incluidas en los cebadores para la amplificación mediante PCR y las etiquetas específicas de la muestra se anclan a los polinucleótidos por medio de amplificación mediante PCR, y en donde los cebadores para la amplificación mediante PCR comprenden, en orden 5' a 3', un radical para la inmovilización y/o una secuencia para la amplificación mediante PCR, la etiqueta de secuencia específica de la muestra y una secuencia sonda específica para una secuencia diana localizada en posición 3' con respecto a una región genética variable; comprendiendo el método adicionalmente las etapas de:

a partir de las secuencias etiqueta incluidas en las secuencias de polinucleótidos determinadas de este modo identificar la muestra en la que se produjeron las secuencias de polinucleótidos; a partir de las secuencias de la región genética variable incluida en las secuencias de polinucleótidos determinadas de este modo identificar las variantes concretas de dicho elemento genético variable; a partir de esta información determinar el número de veces que una o más variantes dadas aparecen en cada muestra; y a partir del número de cada variante en los polinucleótidos determinados de este modo, cuantificar dichos polinucleótidos en dichas muestras.

2. El método de la reivindicación 1, en donde el anclaje de la primera secuencia etiqueta específica de la muestra por medio de amplificación mediante PCR comprende:

hibridar un primer cebador a los polinucleótidos en una primera muestra, comprendiendo dicho primer cebador una primera secuencia etiqueta y una primera secuencia sonda específica para una primera secuencia diana, en donde dicha primera secuencia diana se encuentra en posición 3' con respecto a una región genética variable; y elongar los moldes de los cebadores formados de esta manera para formar una primera población de polinucleótidos etiquetados que comprende: dicho primer cebador que incluye dicha primera secuencia etiqueta y secuencias de dicha región genética variable;

y en donde el anclaje de la segunda etiqueta específica de la muestra por medio de amplificación mediante PCR comprende:

hibridar un segundo cebador a los polinucleótidos en una segunda muestra, comprendiendo dicho segundo cebador una segunda secuencia etiqueta y una segunda secuencia sonda específica para una segunda secuencia diana, en donde dicha segunda secuencia diana se encuentra en posición 3' con respecto a la misma región genética variable como dicha primera secuencia diana, en donde adicionalmente dicha segunda secuencia sonda puede ser la misma que, o diferente de, dicha primera secuencia sonda; y elongar los moldes de los cebadores formados de esta manera para formar una segunda población de polinucleótidos etiquetados que comprende: dicho segundo cebador que incluye dicha segunda secuencia etiqueta; y secuencias de dicha región genética variable;

y adicionalmente en donde la etapa de mezcla de la muestra etiquetado comprende mezclar entre sí dicha primera y segunda poblaciones.

3. El método de la reivindicación 1 o 2, en donde las secuencias se determinan cuantitativamente y sin transferencia de Southern y/o sin separar por tamaño los productos de extensión del cebador y/o sin electroforesis.

4. El método de cualquier reivindicación precedente, en donde:

(A) en cada uno de dichos cebadores utilizados en el método la secuencia sonda se encuentra en posición 3' con respecto a la secuencia etiqueta, pero no necesariamente adyacente a la misma;

(B) en cada uno de los cebadores utilizados en el método, la secuencia etiqueta es diferente de la secuencia etiqueta del otro cebador utilizado en el método; la secuencia etiqueta no es la secuencia complementaria a ningún otra secuencia etiqueta utilizada en el método; la secuencia etiqueta no contiene ninguna secuencia de homodinucleótido; las secuencias de empalme entre la secuencia etiqueta y las porciones adyacentes del

cebador, si las hubiera, no es una secuencia de homodinucleótido;

(C) en cada uno de los cebadores utilizados en el método la secuencia sonda es complementaria a la secuencia diana y la secuencia diana se encuentra localizada en posición 3' con respecto a una región genética variable; y (D) cada uno de dichos cebadores se dispone por separado de los otros utilizados en el método.

5. Un método de cualquier reivindicación precedente, que comprende adicionalmente normalizar el número de apariciones determinadas para una secuencia diana dada.

6. Un método de la reivindicación 5, en donde el número de apariciones se normaliza dividiendo el número de apariciones determinadas para la secuencia de polinucleótidos dada por el número total de apariciones de secuencias de polinucleótidos en la muestra.

7. Un método de acuerdo con cualquier reivindicación precedente, en donde las secuencias etiqueta tienen 4, 5, 6, 7,

8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, o 36 nucleótidos de longitud o cualquiera de sus combinaciones.

8. Un método de cualquier reivindicación precedente, en donde la secuenciación se lleva a cabo utilizando amplificación en emulsión de cuentas. 20

9. Un método de acuerdo con cualquier reivindicación precedente, en donde cada uno de dichos polinucleótidos se dispone individualmente en una cuenta aislado de otros polinucleótidos.

10. Un método de acuerdo con cualquier reivindicación precedente, en donde los polinucleótidos en dichas muestras

se disponen aislados entre sí, se amplifican mientras están dispuestos de este modo, y los productos de amplificación de cada polinucleótido formado de esta manera se disponen por separado de los productos de amplificación de otros polinucleótidos.

11. Un método de acuerdo con cualquier reivindicación precedente, en donde los polinucleótidos en dichas muestras se inmovilizan individualmente sobre cuentas, los polinucleótidos inmovilizados de este modo se amplifican mediante PCR en emulsión de cuentas, la emulsión se resuelve, y las cuentas se disponen después separadamente entre sí para la secuenciación.

12. Un método de acuerdo con cualquier reivindicación precedente, en donde las secuencias de las variantes de una 35 región genética variable se secuencian y dichas variantes son específicas de los organismos concretos.

13. Un método según la reivindicación 12, en donde dicha región genética variable comprende una o más de una secuencia de ARNr 16S variable, una secuencia de ARNr 18S variable, una secuencia de ARNr ITS variable, una secuencia mitocondrial o una secuencia de microsatélites.

14. Un método de acuerdo con cualquier reivindicación precedente, en donde las muestras son muestras de la comunidad microbiana y las secuencias de dichos polinucleótidos se utilizan para análisis clínico, análisis ambiental, análisis del suelo, o análisis de agua.

15. Un método de acuerdo con una cualquiera de las reivindicaciones 1 a 12, en donde las muestras son ADN genómico bacteriano fragmentado, ADN genómico de Archaea, ADN genómico fúngico, ADN genómico eucariótico, ADN de cloroplasto y/o ADN mitocondrial.

16. Un método de acuerdo con cualquier reivindicación precedente, en donde las secuencias se determinan 50 mediante pirosecuenciación.