Aumento de la confianza en las identificaciones de alelos con el recuento molecular.

Un método de estimación del número de moléculas de polinucleótidos de partida secuenciadas a partir de múltiples muestras, comprendiendo el método:

unir un adaptador a las moléculas de polinucleótidos de partida de múltiples muestras diferentes, en donde el adaptador para cada muestra comprende:

una marca de un único identificador multiplex

(MID) específico para la muestra, haciendo posible la marca del identificador multiplex la identificación de la muestra a partir de la cual se deriva un polinucleótido; y una región de bases degeneradas (DBR) que comprende al menos una base de nucleótidos seleccionada de: R, Y, S, W, K, M, B, D, H, V, N, y las versiones modificadas de las mismas, siendo la degeneración de las DBR de tal modo que es probable que cada polinucleótido individual tenga una DBR diferente; reunir las múltiples muestras unidas a adaptadores diferentes para generar una muestra conjunta; amplificar los polinucleótidos unidos al adaptador en la muestra conjunta;

secuenciar una pluralidad de los polinucleótidos amplificados unidos al adaptador, en donde se obtiene la secuencia del MID, de la DBR y de al menos una porción del polinucleótido, para cada uno de la pluralidad de polinucleótidos unidos al adaptador; y

determinar el número de secuencias de DBR definidas presentes en la pluralidad de polinucleótidos secuenciados unidos al adaptador a partir de cada muestra, para determinar el número de polinucleótidos de partida de cada muestra que fueron secuenciados en la etapa de secuenciación

Tipo: Patente Internacional (Tratado de Cooperación de Patentes). Resumen de patente/invención. Número de Solicitud: PCT/IB2011/003160.

Solicitante: Population Genetics Technologies LTD.

Nacionalidad solicitante: Reino Unido.

Dirección: Babraham Research Campus Cambridge CB22 3AT REINO UNIDO.

Inventor/es: BRENNER, SYDNEY, CASBON,JAMES, OSBORNE,ROBERT, LICHTENSTEIN,CONRAD, CLAAS,ANDREAS.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION C — QUIMICA; METALURGIA > BIOQUIMICA; CERVEZA; BEBIDAS ALCOHOLICAS; VINO; VINAGRE;... > MICROORGANISMOS O ENZIMAS; COMPOSICIONES QUE LOS... > Técnicas de mutación o de ingeniería genética;... > C12N15/09 (Tecnología del ADN recombinante)

PDF original: ES-2523140_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Aumento de la confianza en las identificaciones de alelos con el recuento molecular

Antecedentes El genotipado es una técnica importante de la investigación genética para la cartografía de un genoma y la localización de genes que están ligados a características hereditarias (por ejemplo, enfermedades genéticas) . El genotipo de un sujeto generalmente incluye la determinación de los alelos para uno o más locus genómicos en base a los datos de secuenciación obtenidos a partir del ADN del sujeto. Los genomas diploides (p. ej., los genomas humanos) se pueden clasificar, por ejemplo, como homocigóticos o heterocigóticos en un locus genómico dependiendo del número de alelos diferentes que tienen para ese locus, donde los individuos heterocigóticos tienen dos alelos diferentes para un locus y los individuos homocigóticos tienen dos copias del mismo alelo para el locus. El genotipado apropiado de las muestras es crucial cuando se realizan estudios en las grandes poblaciones que se necesitan para relacionar el genotipo con el fenotipo con alta confianza estadística.

En el análisis de genotipado de los genomas diploides por secuenciación, se utiliza la cobertura (número de lecturas de secuenciación) para un locus genómico particular, para establecer la confianza de una identificación de alelos. Sin embargo, la confianza en la identificación de alelos se reduce significativamente cuando se introduce un sesgo durante la preparación de la muestra, p. ej., cuando la muestra de partida está en cantidades limitantes y/o cuando se emplean una o más reacciones de amplificación para preparar la muestra para la secuenciación. Así, en las muestras que tienen cantidades limitadas de ADN, se puede ver una alta cobertura (es decir, un alto número de lecturas de secuenciación) para un alelo de un cromosoma por encima del alelo de un cromosoma diferente debido al sesgo de la amplificación (por ejemplo, amplificación de solamente algunas, o incluso de solamente una molécula de polinucleótido) . En este caso, la cobertura por sí sola puede ser engañosa cuando se mide la confianza en una identificación de alelos.

La presente invención encuentra utilidad para aumentar la confianza en la identificación de alelos así como en otras aplicaciones basadas en el análisis de secuencias de ácido nucleico, especialmente en el contexto de estudio de genotipos en una población grande de muestras.

Sumario de la invención Algunos aspectos de la presente invención incluyen métodos y composiciones para determinar el número de moléculas de polinucleótidos individuales que se originan a partir de la misma región genómica de la misma muestra original que han sido secuenciadas en una configuración o procedimiento particular de análisis de secuencias. En estos aspectos de la invención, una región de bases degeneradas (DBR) se une a las moléculas de polinucleótidos de partida que se secuencian posteriormente (p. ej., después de que se hayan llevado a cabo ciertas etapas del procedimiento, p. ej., amplificación y/o enriquecimiento) . El número de secuencias de DBR diferentes presentes en un ciclo de secuenciación se puede utilizar para determinar/estimar el número de moléculas de polinucleótidos individuales que se originan a partir de la misma región genómica de la misma muestra original que han sido secuenciadas en una configuración o procedimiento particular de análisis de secuencias. Las DBR se pueden utilizar para mejorar el análisis de muchas aplicaciones diferentes de secuenciación de ácidos nucleicos. Por ejemplo, las DBR permiten la determinación de un valor estadístico para una identificación de alelos en ensayos de genotipado que no se pueden derivar sólo del número de lecturas.

Según un aspecto de la presente invención, se proporciona un método para estimar el número de moléculas de polinucleótidos de partida secuenciadas a partir de múltiples muestras como se especifica en la reivindicación 1.

El adaptador puede comprender además una secuencia refleja y/o un sitio promotor.

La etapa de secuenciación puede comprender la realización de un procedimiento de secuenciación de nueva generación.

Las múltiples muestras diferentes pueden ser muestras de ADN genómico derivadas de diferentes sujetos.

El método se puede diseñar para determinar la heterogeneidad genética de los polinucleótidos de la muestra, o de múltiples muestras diferentes.

Breve descripción de los dibujos La invención se entenderá mejor a partir de la siguiente descripción detallada cuando se lea conjuntamente con los dibujos que la acompañan. En los dibujos se incluyen las siguientes figuras:

Figura 1 que muestra la relación de alelos para cada MID en muestras preparadas a partir de la cantidad indicada de material de partida (parte superior de cada panel; en nanogramos) .

Figura 2 que muestra la fracción de secuencias de DBR para cada MID asociadas con cada alelo en una posición polimórfica sintética. Se prepararon muestras a partir de la cantidad indicada de material de partida (parte superior de cada panel; en nanogramos) .

Figura 3 que muestra los productos producidos en los dos primeros ciclos de la PCR utilizando cebadores que tienen secuencias de DBR.

Definiciones A menos que se defina otra cosa, todos los términos técnicos y científicos usados en este documento tienen el mismo significado que es entendido comúnmente por los expertos en la técnica a la que pertenece esta invención. Sin embargo, ciertos elementos se definen en aras de la claridad y facilidad de referencia.

Los términos y símbolos de la química del ácido nucleico, bioquímica, genética y biología molecular que se utilizan aquí siguen los de los tratados y textos estándar de la materia, p. ej., Kornberg and Baker, DNA Replication, Second Edition (W.H. Freeman, New York, 1992) ; Lehninger, Biochemistr y , Second Edition (Worth Publishers, New York, 1975) ; Strachan and Read, Human Molecular Genetics, Second Edition (Wiley-Liss, New York, 1999) ; Eckstein, editor, Oligonucleotides and Analogs: A practical Approach (Oxford University Press, New York, 1991) ; Gait, editor, Oligonucleotide Synthesis: A Practical Approach (IRL Press, Oxford, 1984) ; y similares.

"Amplicón", significa el producto de una reacción de amplificación de polinucleótidos. Es decir, es una población de polinucleótidos, normalmente de doble cadena, que se replican a partir de una o más secuencias de partida. Las una o más secuencias de partida pueden ser una o más copias de la misma secuencia, o pueden ser una mezcla de diferentes secuencias. Los amplicones se pueden producir por una variedad de reacciones de amplificación cuyos productos son múltiples replicados de uno o más ácidos nucleicos diana. En general, las reacciones de amplificación que producen amplicones están "basadas en moldes" porque el apareamiento de bases de los reactantes, ya sean nucleótidos u oligonucleótidos, tienen en un polinucleótido molde los complementos que se requieren para la creación de los productos de reacción. En un aspecto, las reacciones basadas en moldes son extensiones de cebadores con una polimerasa de ácido nucleico o ligamientos de oligonucleótidos con una ligasa de ácido nucleico. Dichas reacciones incluyen, pero no se limitan a, reacciones en cadena de la polimerasa (PCR) , reacciones lineales de la polimerasa, amplificación basada en secuencias de ácido nucleico (NASBA) , amplificaciones por círculo rodante, y similares, descritas en las siguientes referencias: Mullis et al., patentes de Estados Unidos 4.683.195; 4.965.188; 4.683.202; 4.800.159 (PCR) ; Gelfand et al., patente de Estados Unidos 5.210.015 (PCR en tiempo real con sondas "TAQMAN™") ; Wittwer et al., patente de Estados Unidos 6.174.670;... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de estimación del número de moléculas de polinucleótidos de partida secuenciadas a partir de múltiples muestras, comprendiendo el método:

unir un adaptador a las moléculas de polinucleótidos de partida de múltiples muestras diferentes, en donde el adaptador para cada muestra comprende:

una marca de un único identificador multiplex (MID) específico para la muestra, haciendo posible la marca del identificador multiplex la identificación de la muestra a partir de la cual se deriva un polinucleótido; y

una región de bases degeneradas (DBR) que comprende al menos una base de nucleótidos seleccionada de: R, Y, S, W, K, M, B, D, H, V, N, y las versiones modificadas de las mismas, siendo la degeneración de las DBR de tal modo que es probable que cada polinucleótido individual tenga una DBR diferente;

reunir las múltiples muestras unidas a adaptadores diferentes para generar una muestra conjunta;

amplificar los polinucleótidos unidos al adaptador en la muestra conjunta;

secuenciar una pluralidad de los polinucleótidos amplificados unidos al adaptador, en donde se obtiene la secuencia del MID, de la DBR y de al menos una porción del polinucleótido, para cada uno de la pluralidad de polinucleótidos unidos al adaptador; y

determinar el número de secuencias de DBR definidas presentes en la pluralidad de polinucleótidos secuenciados unidos al adaptador a partir de cada muestra, para determinar el número de polinucleótidos de partida de cada muestra que fueron secuenciados en la etapa de secuenciación.

2. Un método según la reivindicación 1, en donde el adaptador comprende además un sitio del cebador de la secuenciación.

3. Un método según la reivindicación 1, en donde la DBR comprende al menos 2 bases de nucleótidos, en donde cada una de las al menos 2 bases de nucleótidos se seleccionan de: R, Y, S, W, K, M, B, D, H, V, y N.

4. Un método según la reivindicación 3, en donde la DBR comprende de 3 a 20 bases de nucleótidos, en donde cada una de las 3 a 20 bases de nucleótidos se selecciona de: R, Y, S, W, K, M, B, D, H, V, y N.

5. Un método según la reivindicación 1, en donde el número determinado de polinucleótidos de cada muestra que fueron secuenciados en la etapa de secuenciación se emplea en un método para la identificación de alelos.

6. Un método según la reivindicación 1, en donde cada una de las múltiples muestras es una muestra de ADN genómico.

7. Un método según la reivindicación 6, en donde cada una de las múltiples muestras de ADN genómico diferente se deriva de un sujeto humano diferente.

8. Un método según la reivindicación 1, en donde además se enriquece la muestra para una región de interés antes de la etapa de unión.

9. Un método según la reivindicación 1, que comprende además enriquecer los polinucleótidos unidos al adaptador para una región de interés.

10. Un método según la reivindicación 3, en donde el adaptador es un adaptador asimétrico, en donde un primer dominio del adaptador está presente en un primer extremo del polinucleótido y un segundo dominio del adaptador está presente en un segundo extremo del polinucleótido, en donde la DBR es una DBR dividida que comprende una

o más de las al menos 2 bases de nucleótidos en el primer dominio del adaptador y una o más de las al menos 2 bases de nucleótidos en el segundo dominio del adaptador.

11. Un método según la reivindicación 1, en donde el adaptador se une a las moléculas de polinucleótido en una reacción de amplificación, en donde la DBR está presente en un cebador de síntesis empleado en la reacción de amplificación.

12. Un método según la reivindicación 11, en donde la reacción de amplificación es una PCR.

13. Un método según la reivindicación 11, en donde el método comprende además determinar el número de polinucleótidos de partida amplificados en la reacción PCR.

14. Un método según la reivindicación 1, en donde el método se dirige a la determinación de la heterogeneidad genética de los polinucleótidos en la muestra, en donde la muestra comprende polinucleótidos derivados de tejido tumoral, microorganismos y/o virus.

15. Un método según la reivindicación 1, en donde el método se dirige a la determinación de la heterogeneidad genética de los polinucleótidos presentes en las múltiples muestras diferentes, en donde las múltiples muestras diferentes se derivan de diferentes secciones de un tumor, en donde las múltiples muestras diferentes se derivan de diferentes tumores de un sujeto, o en donde las múltiples muestras diferentes se derivan de un sujeto a lo largo del tiempo o en donde el sujeto tiene una infección.