Un método para lograr la expresión polipeptídica mejorada.

Un método de optimización de una secuencia codificante nucleotídica que codifica una secuencia de aminoácidos predeterminada, mediante el cual la secuencia codificante se optimiza para la expresión en una célula hospedante predeterminada, comprendiendo el método:

a) generar al menos una secuencia codificante original que codifica la secuencia de aminoácidos predeterminada;

b) generar al menos una secuencia codificante nuevamente generada a partir de esta al menos una secuencia codificante original sustituyendo en esta al menos una secuencia codificante original uno o más codones mediante un codón sinónimo;

c) determinar un valor de adecuación de dicha al menos una secuencia codificante original y un valor de adecuación de dicha al menos una secuencia codificante nuevamente generada a la vez que se usa una función de adecuación que determina al menos una de adecuación de codón individual y adecuación del par de codones para la célula hospedante predeterminada;

d) escoger una o más secuencias codificantes seleccionadas entre dicha al menos una secuencia codificante original y dicha al menos una secuencia codificante nuevamente generada según un criterio de selección predeterminado de manera que cuanto mayor es dicho valor de adecuación, mayor es la probabilidad de ser escogido;

e) repetir las acciones b a d) a la vez que se trata dicha una o más secuencias codificantes seleccionadas como una o más secuencias codificantes originales en las acciones b) a d) hasta que se satisface un criterio de parada de iteración predeterminado en el que dicha función de adecuación se define por medio de:

en la que cpi es un valor real mayor que cero, fitcp

(g) es la función de adecuación del par de codones, fitsc(g) es una función de adecuación del codón individual, w((c(k), c(k + 1)) es un peso de un par de codones en una secuencia codificante g, /g/ es la longitud de dicha secuencia codificante, c(k) es el codón k-avo en dicha secuencia de codones, es una relación deseada de codón c(k), y es una relación real en la secuencia codificante g.

Tipo: Patente Europea. Resumen de patente/invención. Número de Solicitud: E11163033.

Solicitante: DSM IP ASSETS B.V..

Nacionalidad solicitante: Países Bajos.

Dirección: HET OVERLOON 1 6411 TE HEERLEN PAISES BAJOS.

Inventor/es: ROUBOS,JOHANNES ANDRIES, PEIJ,VAN NOËL NICOLAAS MARIA ELISABETH.

Fecha de Publicación: .

Clasificación Internacional de Patentes:

  • SECCION C — QUIMICA; METALURGIA > BIOQUIMICA; CERVEZA; BEBIDAS ALCOHOLICAS; VINO; VINAGRE;... > MICROORGANISMOS O ENZIMAS; COMPOSICIONES QUE LOS... > Técnicas de mutación o de ingeniería genética;... > C12N15/67 (Métodos generales para favorecer la expresión)

PDF original: ES-2534282_T3.pdf

 

google+ twitter facebook

Fragmento de la descripción:

Un método para lograr la expresión polipeptídica mejorada Campo de la invención La presente invención se refiere a un método para producir un polipéptido en una célula hospedante, en el que las secuencias nucleotídicas que codifican el polipéptido se han modificado con respecto a su uso de codones, en particular los pares de codones que se usan, para obtener expresión mejorada de la secuencia nucleotídica que codifica el polipéptido, y/o la producción mejorada del polipéptido.

Antecedentes de la técnica La presente invención se refiere a métodos mejorados para producir polipéptidos. Se han aplicado numerosos enfoques para generar cepas para la sobreexpresión y/o producción de proteínas. Esto incluye, pero no se limita a, obtención de cepas con múltiples copias del gen que codifica la proteína de interés (POI) , y aplicar secuencias promotoras fuertes.

Cada aminoácido específico es codificado por un mínimo de un codón y un máximo de seis codones. La investigación previa ha mostrado que el uso de codones en genes que codifican los polipéptidos de las células está predispuesto entre especies (Kanaya, S, Y. Yamada, Y. Kudo y T. Ikemura (1999) Studies of codon usage and tRNA genes at 18 unicellular organisms and quantification of Bacillus subtilis tRNAs: gene expression level and speciesspecific diversity of codon usage based on multivariate analysis. Gene 238:143-155) . Publicaciones previas describen la optimización del uso de codones en una célula hospedante dada para mejorar la producción polipeptídica (como ejemplo, véase el documento WO 97/11086) . Más específicamente, el documento WO 03/70957 describe el uso optimizado de codones en hongos filamentosos para producir polipéptidos de plantas. En todos estos casos de optimización “clásica” de codones, un codón nativo se ha sustituido por el codón más frecuente a partir de un conjunto de referencia de genes, mientras que la velocidad de traducción del codón para cada aminoácido se diseña para que sea elevada (optimizada) .

Más recientemente, en el documento WO 03/85114, se describió la armonización del uso de codones, que tiene en cuenta la distribución de todos los codones en genes del organismo hospedante, suponiendo que estos afecten al plegamiento de la proteína.

La disponibilidad de genomas completamente secuenciados de muchos organismos en años recientes, por ejemplo Bacillus subtilis (Kunst et al. 1997) , Bacillus amyloliquefaciens, Aspergillus niger (Pel et al., 2007, Nat Biotech. 25: 221-231) , Kluyveromyces lactis, Saccharomyces cerevisiae (http://www.yeastgenome.org/) , diversos genomas de plantas, ratón, rata y ser humano, ha ofrecido la posibilidad de analizar diferentes aspectos de las propias secuencias génicas con relación a su nivel de expresión natural (ARNm o nivel proteico) . Un buen ejemplo es el análisis del uso (preferencia) de codones, y la optimización subsiguiente de codones individuales. Obsérvese que la optimización de codones individuales se entiende aquí que se refiere a técnicas de optimización de codones o de armonización de codones que se centran en la optimización de codones como entidades individuales independientes, en contraste con la optimización de pares de codones, que es el tópico de la actual descripción.

Mientras que el uso (preferencia) de codones individuales se ha estudiado ampliamente antes (para un resumen, véase Gustafsson et al., 2004, Trends Biotechnol. 22:346-353) , solo hay unos pocos informes sobre el uso de pares de codones y para la optimización de pares de codones.

El efecto de unos pocos pares de codones específicos sobre desplazamientos del marco ribosómicos en E. coli se ha investigado, por ejemplo, para el par de codones AGG-AGG (Spanjaard y van Duin, 1988, Proc. Natl. Acad. Sci. USA 85:7967-7971; Gurvich et al., 2005, J. Bacteriol. 187:4023-432) , y para los sitios UUU-YNN (Schwarz y Curran, 1997, Nucleic Acids Res. 25:2005-2011) .

Gutman y Hatfield (1989, Proc. Natl. Acad. Sci USA 86:3699-3703) analizaron un conjunto más grande de secuencias para todos los posibles pares de codones para E. coli, y encontraron que los pares de codones están predispuestos direccionalmente. Además, observaron que los pares muy poco representados se usan casi el doble de frecuencia que los sobrerrepresentados en genes altamente expresados, mientras que en genes pobremente expresados se usan más frecuentemente los pares sobrerrepresentados. El documento US 5.082.767 (Hatfield y Gutman, 1992) describe un método para determinar las preferencias de emparejamiento de codones nativas relativas en un organismo y para alterar el emparejamiento de codones de un gen de interés de acuerdo con dichas preferencias de emparejamiento de codones para cambiar la cinética traduccional de dicho gen de una manera predeterminada, con ejemplos para E. coli y S. cerevisiae. Sin embargo, en su método, Hatfield y Gutman solo optimizan pares individuales de codones adyacentes. Además, en su patente (documento US 5.082.767) , se reivindica cómo incrementar la cinética traduccional de al menos una porción de un gen mediante una secuencia modificada en la que se altera el emparejamiento de codones para incrementar el número de pares de codones que, en comparación con el uso de pares de codones al azar, son los más abundantes y sin embargo los pares de codones más subrepresentados en un organismo. Se describe un método para incrementar la traducción mediante una secuencia modificada en la que se altera el emparejamiento de codones para incrementar el número de pares

de codones que, en comparación con el uso de pares de codones al azar, son los pares de codones más sobrerrepresentados en un organismo.

Moura et al. (2005, Genome Biology, 6:R28) analizaron el ORFeoma de S. cerevisae completo, pero no encontraron una preferencia estadísticamente significativa para alrededor de 47% de los pares de codones. Los valores respectivos difirieron de una especie a otra, dando como resultado “mapas de contexto de codones” que se pueden considerar como “huellas dactilares específicas de las especies” del uso de pares de codones.

Boycheva et al. (2003, Bioinformatics 19 (8) :987-998) identificaron dos conjuntos de pares de codones en E. coli denominados hipotéticamente atenuantes e hipotéticamente no atenuantes al buscar pares de codones sobrerrepresentados y subrepresentados entre genes con una expresión alta y baja. Sin embargo, no proponen un método para aplicar este hallazgo, ni dieron ninguna prueba experimental para su hipótesis. Obsérvese que estos grupos se definen completamente opuestos a aquellos definidos por Gutman y Hatfield (1989, 1992, más arriba) quienes propusieron un efecto no atenuante para pares muy subrepresentados en genes muy expresados.

Buchan, Aucott y Stanfield (2006, Nucleic Acids Research 34 (3) :1015-1027) analizaron las propiedades del ARNt con respecto a la preferencia de los pares de codones.

En cuanto a las implicaciones de las preferencias en la utilización de pares de codones, Irwin et al. (1995, J. Biol. Chem. 270:22801-22806) demostraron en E. coli que la velocidad de síntesis disminuyó realmente de forma sustancial cuando se sustituye un par de codones muy subrepresentado por otro muy sobrerrepresentado, y aumentó cuando intercambia un par de codones ligeramente subrepresentado por uno más altamente subrepresentado. Esto es bastante extraordinario ya que es más bien lo opuesto de lo que se podría esperar dada la influencia de la preferencia de codones individuales sobre los niveles proteicos.

Sin embargo, ninguna de las técnicas citadas anteriormente describe cómo optimizar el uso de pares de codones de una secuencia de codones de longitud completa teniendo en cuenta el hecho de que por definición... [Seguir leyendo]

 


Reivindicaciones:

1. Un método de optimización de una secuencia codificante nucleotídica que codifica una secuencia de aminoácidos predeterminada, mediante el cual la secuencia codificante se optimiza para la expresión en una célula hospedante predeterminada, comprendiendo el método:

a) generar al menos una secuencia codificante original que codifica la secuencia de aminoácidos predeterminada;

b) generar al menos una secuencia codificante nuevamente generada a partir de esta al menos una secuencia codificante original sustituyendo en esta al menos una secuencia codificante original uno o más codones mediante un codón sinónimo;

c) determinar un valor de adecuación de dicha al menos una secuencia codificante original y un valor de adecuación de dicha al menos una secuencia codificante nuevamente generada a la vez que se usa una función de adecuación que determina al menos una de adecuación de codón individual y adecuación del par de codones para la célula hospedante predeterminada;

d) escoger una o más secuencias codificantes seleccionadas entre dicha al menos una secuencia codificante original y dicha al menos una secuencia codificante nuevamente generada según un criterio de selección predeterminado de manera que cuanto mayor es dicho valor de adecuación, mayor es la probabilidad de ser escogido;

e) repetir las acciones b a d) a la vez que se trata dicha una o más secuencias codificantes seleccionadas como una o más secuencias codificantes originales en las acciones b) a d) hasta que se satisface un criterio de parada de iteración predeterminado en el que dicha función de adecuación se define por medio de:

en la que cpi es un valor real mayor que cero, fitcp (g) es la función de adecuación del par de codones, fitsc (g) es una función de adecuación del codón individual, w ( (c (k) , c (k + 1) ) es un peso de un par de codones en una secuencia codificante g, g es la longitud de dicha secuencia codificante, c (k) es el codón k-avo en dicha secuencia de codones,

es una relación deseada de codón c (k) , y es una relación real en la secuencia codificante g.

2. Un método según la reivindicación 1, en el que dicho criterio de selección predeterminado es tal que dicha una o más secuencias codificantes seleccionadas tienen un mejor valor de adecuación según un criterio predeterminado.

3. Un método según la reivindicación 1 ó 2, en el que dicho método comprende, tras la acción e) :

f) seleccionar una mejor secuencia codificante individual entre dicha una o más secuencias codificantes seleccionadas, en el que dicha mejor secuencia codificante individual tiene un mejor valor de adecuación que 35 otras secuencias codificantes seleccionadas.

4. Un método según una cualquiera de las reivindicaciones 1-3, en el que dicho criterio de parada de iteracción predeterminado es al menos uno de:

(a) evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene un mejor valor de adecuación por encima de un valor umbral predeterminado;

(b) evaluar si ninguna de dichas secuencias codificantes seleccionadas tiene un mejor valor de adecuación por debajo de dicho valor umbral predeterminado;

(c) evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene al menos 30% de los pares de codones con pesos de pares de codones positivos asociados para la célula hospedante predeterminada en dicha secuencia codificante original que se transforman en pares de codones con pesos negativos asociados; y,

(d) evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene al menos 30% de los pares de codones con pesos positivos asociados por encima de 0 para la célula hospedante predeterminada en dicha secuencia codificante original que se transforman en pares de codones con pesos asociados por debajo de 0.

5. Un método según una cualquiera de las reivindicaciones 1 a 4, en el que cpi está entre 10-4 y 0, 5.

6. Un método según una cualquiera de las reivindicaciones 1-5, en el que dichos pesos w de los pares de codones se toman a partir de una matriz de 61 x 61 de pares de codones sin codones de parada, o una matriz de 61 x 64 de pares de codones que incluye codones de parada, y en el que dichos pesos w del par de codones se calcula en base a un método a base de ordenador, usando como información de entrada al menos uno de:

(a) un grupo de secuencias nucleotídicas que consiste en al menos 200 secuencias nucleotídicas de un 10 hospedante predeterminado;

(b) un grupo de secuencias nucleotídicas que consiste en al menos 200 secuencias nucleotídicas de la especie a la que pertenece el hospedante predeterminado;

(c) un grupo de secuencias nucleotídicas que consiste en al menos 5% de las secuencias nucleotídicas que codifican la proteína en una secuencia genómica del hospedante predeterminado; y,

(d) un grupo de secuencias nucleotídicas que consiste en al menos 5% de las secuencias nucleotídicas que codifican la proteína en una secuencia genómica de un género relacionado con el hospedante predeterminado.

7. Un método según la reivindicación 6, en el que dichos pesos w de los pares de codones se determinan para al menos 5%, 10%, 20%, 50%, y preferiblemente 100% de los posibles 61 x 64 pares de codones que incluyen la señal de terminación como codón de parada.

8. Un método según la reivindicación 1-7, en el que dichos pesos w de pares de codones se toman de una matriz de 61 x 61 de pares de codones sin codones de parada, o una matriz de 61 x 64 de pares de codones que incluyen codones de parada, y en el que dichos pesos w de pares de codones se definen por medio de:

en la que los valores esperados combinados se definen por medio de:

expresado son los genes cuyos ARNm se pueden detectar a un nivel de al menos 20 copias por célula.

9. Un método según cualquiera de las reivindicaciones anteriores, en el que dicha secuencia nucleotídica codificante 30 original que codifica una secuencia de aminoácidos predeterminada se selecciona de:

(a) una secuencia nucleotídica de tipo salvaje que codifica dicha secuencia de aminoácidos predeterminada;

(b) una traducción inversa de la secuencia de aminoácidos predeterminada, por lo que un codón para una posición de aminoácido en la secuencia de aminoácidos predeterminada se escoge al azar de los codones sinónimos que codifican el aminoácido; y

(c) una traducción inversa de la secuencia de aminoácidos predeterminada, por lo que un codón para una posición de aminoácido en la secuencia de aminoácidos predeterminada se escoge según una preferencia de codones individuales para la célula hospedante predeterminada o una especie relacionada con la célula hospedante.

10. Un método según cualquiera de las reivindicaciones 1-9, en el que dicha célula hospedante predeterminada es una célula de un microorganismo, preferiblemente un microorganismo de un género seleccionado de: Bacillus, Actinomycetis, Escherichia, Streptomyces, Aspergillus, Penicillium, Kluyveromyces, Saccharomyces.

11. Un método según cualquiera de las reivindicaciones 1-9, en el que dicha célula hospedante predeterminada es

una célula de un animal o planta, preferiblemente una célula de una estirpe celular seleccionada de CHO, BHK, NSO, COS, Vero, PER.C6™, HEK-293, Drosophila S2, Spodoptera Sf9 y Spodoptera Sf21.

12. Un ordenador que comprende un procesador y memoria, estando el procesador dispuesto para leer de dicha

memoria y escribir en dicha memoria, comprendiendo la memoria datos e instrucciones montados para hacer que 5 dicho procesador lleve a cabo el método de cualquiera de las reivindicaciones 1-11.

13. Producto de programa de ordenador que comprende datos e instrucciones, y dispuesto para ser cargado en una memoria de un ordenador que también comprende un procesador, estando el procesador dispuesto para leer de dicha memoria y escribir en dicha memoria, estando los datos e instrucciones dispuestos para hacer que dicho procesador lleve a cabo el método de cualquiera de las reivindicaciones 1-11.

14. Soporte de datos proporcionado con un producto de programa de ordenador según la reivindicación 13.

15. Un método según una cualquiera de las reivindicaciones 1 a 11, en el que la secuencia codificante que codifica una secuencia de aminoácidos predeterminada generada con el método está comprendida en una molécula de ácido nucleico, en el que la secuencia codificante no es una secuencia codificante de origen natural, y en el que la secuencia codificante tiene una fitcp (g) de al menos por debajo de -0, 1, y preferiblemente por debajo de -0, 2, y más preferiblemente por debajo de -0, 3 para una célula hospedante predeterminada.

16. Un método según una cualquiera de las reivindicaciones 1 a 11, en el que la secuencia codificante que codifica una secuencia de aminoácidos predeterminada generada con el método está comprendida en una molécula de ácido nucleico, en el que la secuencia codificante no es una secuencia codificante de origen natural, y en el que la secuencia codificante tiene una fitcp (g) de al menos por debajo de -0, 1, y preferiblemente por debajo de -0, 2 para una célula hospedante predeterminada, y una fitsci (g) de al menos por debajo de 0, 1 para una célula hospedante predeterminada.