1. BÚSQUEDA EN BASES DE DATOS MOLECULARES Al utilizar la base de datos UniProtKB y SRS, hemos obtenido un fichero en formato multi-FASTA, compuesto por cuatro secuencias: M. tuberculosis, M. bovis, M. avium y M. leprae.
Como se puede comprobar, todas las secuencias aminoacídicas de la proteína Apa pertenecen a organismos del mismo género, probablemente porque es una proteína específica de Mycobacterium debido a la especificidad de su función. Es por ello que este análisis bioinformático se basará en un estudio de la secuencia protéica dentro del género Mycobacterium.
De los organismos anteriormente citados hemos obtenido las secuencias nucleotídicas de la región codificante de la proteína Apa (CDS), las cuales están recogidas en el siguiente fichero multi-FASTA:
En la búsqueda de secuencias homólogas basadas únicamente en el nombre de la proteína es dificil cerciorarse de que las proteínas encontradas sean verdaderamente homólogos. En los casos en los que existe una conservación evolutiva elevada es más probable que las proteínas presenten cierta similitud. En nuestro caso, hemos obtenido tres posibles homólogos ( M. bovis, M. avium y M. leprae) a nuestra secuencia de referencia (proteína Apa de M. tuberculosis ). Posteriormente mediante un BLAST comprobaremos si los organismos seleccionados son homólogos para la proteína Apa, ó por el contrario, descarteremos estas secuencias.
2. BÚSQUEDA DE SIMILITUD
Tras realizar un análisis de alineamiento con BLASTp con BLOSUM62, los resultados obtenidos son los siguientes:
Figura 1: Esquema de los dominios conservados de la proteína Apa
Se puede comprobar que existen dos dominios conservados de la proteína Apa que se corresponden con la superfamilia FAP (fibronectin-attachment protein). Esta familia contiene proteínas bacterianas de unión a fibronectina. Los miembros de esta familia son ricos en alanina y prolina, presentan una longitud de unos 300 aminoácidos y parecen ser únicos del género Mycobacterium. Estas proteínas contienen un motivo de unión a fibronectina, el cual permite a Mycobacterium adherirse a la fibronectina de la matriz extracelular.
En concreto, se observa que el primer dominio abarca desde el aminoácido 1 hasta el 40, y el segundo desde el aminoácido 110 al 285 aproximadamente.
Figura 2: BLASTp de Apa con BLOSUM62 Podemos observar que el segundo dominio se encuentra más conservado que el primero, ya que hay un mayor número de organismos candidatos pertenecientes al género Mycobacterium que presentan una alta similitud con ese dominio.
En los resultados obtenidos en el alineamineto, se han obtenido 27 candidatos homólogos a la proteína Apa . Entre ellos, se encuentran cepas y subespecies de M. tuberculosis y de otras especies; de las cuales solo nos centraremos en especies distintas a M. tuberculosis y diferentes cepas de ésta, para llevar a cabo un estudio de parálogos. A continuación, mostramos una tabla donde se resumen los datos más relevantes de cada organismo tomados del apartado "Alignments" de los resultados obtenidos con el BLAST.
Tabla 1: Características principales de los homólogos a la proteína Apa obtenidos con el BLAST. muy bien
Como comentamos en el apartado anterior, la búsqueda de similitud en base al nombre de la proteína es poco fiable puesto que dos proteínas pueden tener el mismo nombre pero no cumplir la misma función. Es por ello, por lo que hemos realizado un análisis con BLAST, obteniéndose como resultado muchos más organismos candidatos que con UniProt, ya que presentan un e-value mucho menor a 0,02. Los valores tan bajos de e-value nos lleva a pensar que las proteínas de estos organismos son realmente homólogas a la proteína Apa de M. tuberculosis . Además, es digno de mencionar que el organismo M.bovis , el cual apareció como posible homólogo usando UniProt, no se observa en los resultados con BLAST. Esto puede ser debido a que la proteína Apa de este organismo, aunque presenta el mismo nombre, su secuencia es diferente y muy probablemente no desempeñe la misma función en el organismo. (se puede comprobar alineando sólo la secuencia de referencia contra esta otra)
Respecto a los porcentajes de identidad, cabe señalar que todos ellos superan el valor umbral de 45%. De este modo, podemos afirmar con bastante certeza que la función y plegamiento tridimensional de las proteínas de los organismos estudiados, son iguales a los de la proteína Apa de M. tuberculosis. Para mayor seguridad, buscamos en bases de datos las funciones de estas proteínas, las cuales presentan función desconocida. Sin embargo, se conoce que están implicadas en el proceso de adhesión de la bacteria al huésped, al igual que Apa. Por lo tanto, como comparten la misma función es de esperar que sean proteínas muy parecidas y con una estructura tridimensional similar. (no sé si el Blast os filtró las secuencias de baja complejidad, ricas en P y A, lo cual puede haberos dado similitudes confusas)
Finalmente, hemos recogido la secuencia aminoacídica y CDS de cada candidato:
En el archivo "cds.txt" observamos que en algunas secuencias el codón de inicio del CDS no se corresponde con ATG u otros encontrados en la base de datos. Esto nos lleva a pensar que la secuencia del CDS encontrada está incompleta. O que Mycobacterium no utiliza el código genético estándar.
3. ANÁLISIS DE SECUENCIAS NO CODIFICANTES MEDIANTE MATRICES DE PUNTOS Con el fin de encontrar nuevas secuencias reguladoras conservadas entre los organismos de estudio, o verificar las regiones reguladoras ya existentes, analizaremos las regiones 5´ no codificantes (UTR 5´) de 4 organismos homólogos que presentan la proteína Apa. Si comprobamos que aparecen algunas regiones conservadas, se compararán con secuencias reguladoras de la transcripción registradas en base de datos públicas.
Tras acceder a la ficha completa de la proteína en la base de datos UniProt, de los organismos seleccionados: M. tuberculosis, M. marinum, M. leprae y M. ulcerans , se comprueba que nuestras secuencias proteicas no poseen región 5´ no codificante; ya que la secuencia CDS comienza en el nucleótido 1 del gen Apa . En los esquemas que se muestran a continuación, se puede observar que el gen completo se corresponde a la CDS, no existiendo región 5´no codificante. Si desea entrar en el apartado GeneID de la base de datos UniProt para buscar más información, haga doble click sobre la imagen.
Figura 3: Gen apa y región codificante (CDS) de los cuatro organismos estudiados.
Como nuestras secuencias proteicas no poseen región UTR 5´, procederemos a realizar matrices de puntos para analizar regiones conservadas de las regiones traducidas (CDS), mediante el programa BioEdit. Al emplear este programa, enfrentamos la secuencia CDS de Apa de Mycobacterium tuberculosis con las secuencias de esta misma proteína del resto de organismos. Como resultado se obtienen 3 matrices de puntos, donde se pueden observar diagonales de distinta longitud que representan zonas conservadas entre las proteínas. Según la longitud de las diagonales podemos afirmar:
- Diagonal larga : simboliza regiones largas de similitud entre las proteínas, debido a que han divergido muy poco en el tiempo. Además, si esta diagonal se encuentra en la diagonal de la matriz, se confirma aún más esta hipótesis.
- Diagonalcorta: representa regiones cortas conservadas entre las porteínas enfrentadas.
A continuación, se muestran las matrices obtenidas mediante BioEdit, al enfrentar las CDS de la proteína Apa de los distintos organismos pertenecientes a Mycobacterium, siempre tomando como referencia M. tuberculosis .
Mycobacterium tuberculosis vs Mycobacterium marinum
En esta matriz podemos observar claramente una diagonal central, muy bien definidad. Esto hace referencia a la existencia de una región conservada entre la CDS de Apa de M. tuberculosis y M. marinum , debido probablemente a que estas regiones apenas han divergido. Esta hipótesis se refuerza por el hecho de que la diagonal forma una imagen especular de la matriz, hayándose justo en la diagonal de la misma. Además, también se observa una región con multitud de diagonales cortas, por lo que podemos intuir que existe también una región de similitud más pequeña entre estas secuencias. Eso son repeticiones de secuencia (probablemente de los tripletes de la región rica en A y P.
Mycobacterium tuberculosis vs Mycobacterium leprae
En esta matriz, a diferencia de la anterior, no se observa una diagonal larga. En este caso, aparecen multitud de diagonales cortas repartidas por toda la matriz que sobresalen respecto al ruido de fondo, pero fundamentalmente se concentran en la esquina izquierda inferior (región marcada en azul). Por este motivo, no podemos afirmar que existan amplias regiones conservadas entre estas proteínas, sino regiones pequeñas que presentan cierta similitud. Además, cabe destacar que este grupo de diagonales pequeñas se encuentran en la diagonal de la matriz, por lo que la similitud entre las pequeñas regiones conservadas es posible que sea alta.
Mycobacterium tuberculosis vs Mycobacterium abscessus
En esta última matriz, se enfrentan las secuencias CDS de Apa de M. tuberculosis y de M. abscessus . Como se puede observar, aparece una diagonal central, formando una imagen especular de la matriz. Sin embargo, no esta tan claramente diferenciada como en el caso de M. tuberculosis vs M. marinum, pudiendo deducir de ello que la secuencia CDS de Apa de M. marium es más similar a la de M. tuberculosis, que la de M. abscessus. Además, como la diagonal se haya en el centro de la matriz, se puede afirmar con más seguridad la similitud entre estas dos secuencias. Cabe destacar también, que aparecen diagonales cortas agrupadas fundamentalmente en 3 regiones (marcadas en rosa), de nuevo repeticiones. Dos de estas regiones, se encuentran en la diagonal de la matriz, por lo que podemos intuir que la similitud de estas regiones cortas es elevada. Sin embargo, una de las regiones no se encuentra en la diagonal de la matriz, por lo que la similitud entre estas secuencias de la proteínas, será menor o incluso la similitud puede ser fruto del azar.
Según los resultados obtenidos, podemos concluir que la escala de similitud, de mayor a menor, entre la secuencia CDS de Apa de M. tuberculosis y las secuencias de Apa de los organismos de estudio, es: M. marinum, M. abscessus y M. leprae . Os ha faltado la discusión sobre las repeticiones de secuencia.
4. ALINEAMIENTOS MÚLTIPLES Y FILOGENIA 4.1.CONSTRUCCIÓN DE ALINEAMIENTOS MÚLTIPLES
Para el análisis de las regiones conservadas entre las secuencias aminoacídicas de Apa utilizamos el programa ClustalX, en el que introducimos las secuencias protéicas en formato FASTA de los 13 organismos homólogos encontrados. Tras obtener el alineamiento múltiple (Figura 4) se generan dos ficheros: uno con la extensión ".aln" y otro con la extensión ".dnd".
Figura 4: Alineamiento múltiple. Regiones más conservadas entre las proteínas Apa de los distintos organismos estudiados.
A continuación abrimos el fichero con la extensión ".aln" generado en ClustalX con el programa BioEdit, y en él podremos estudiar la conservación de secuencia de las diferentes partes de interés del alineamiento, y discutir los resultados.
Para poder interpretar los resultados es necesario saber lo que representa cada símbolo. El "*" hace referencia a aminoácidos idénticos; ":" se refiere a aminoácidos distintos, pero con características fisicoquímicas iguales; y "." significa que los aminoácidos son distintos además de poseer características similares, aunque menos (y luego ya, las posiciones que no tienen nada).
Como visión global del alinemiento podemos destacar tres regiones claramente diferenciadas:
- Región inicial (1-169): región poco conservada en la que se observan multitud de gaps, que podrían corresponderse con zonas bisagra, uniendo distintos dominios, o zonas de lazo de la estructura proteíca.
- Región central (170-350): región altamente conservada en la que nos centraremos a continuación.
- Región terminal (351-435): es la región menos conservada de la proteína y en la que se observan un mayor número de gaps.
Ok
Seguidamente analizaremos los aminoácidos que se conservan en la región central de la proteína. El hecho de que sean aminoácidos conservados en todas las especies, significa que es muy probable que presenten una función fundamental en la proteína. A continuación se registran las posiciones (tomando como referencia M. tuberculosis H37Rv) de estos aminoácidos y sus posibles implicaciones:
- Arginina (R): 112, 169, 204. Uniones externas ó en el núcleo protéico.
- Asparagina (N): 115, 206. Puentes de Hidrógeno y N-glicosilación.
- Glicina (G): 118, 119, 127, 139, 168, 194, 202, 236, 244, 265. Función estructural debido a su pequeño tamaño y ausencia de carga.
- Fenilalanina (F): 120, 196, 228, 260.
- Serina (S): 121, 131, 191, 222, 282. Glicosilación ó fosforilación.
- Prolina (P): 125, 199, 201, 270, 289. Función estructural (plegamiento de la estructura).
- Triptófano (W): 128, 259, 263. Función estructural.
- Tirosina (Y): 138, 223, 224. Fosforilación. (todo esto es predictivo, o está contrastado?)
- Leucina (L): 142, 143, 170, 174, 189, 264.
- Ác. Aspártico (D): 171, 192, 230. Uniones externas ó en el núcleo protéico.
- Alanina (A): 176, 178, 185, 186, 276. Reconocimiento de substrato ó especificidad.
- Ác. Glutámico (E): 179, 195, 225. Uniones externas ó en el núcleo protéico.
- Lisina (K): 184, 227, 233. Uniones externas ó en el núcleo protéico y es acetilable.
- Arginina (R): 188, 258. Uniones externas ó en el núcleo protéico.
- Metionina (M): 193.
- Glutamina (Q): 207, 237. Función estructural, puente de hidrógeno.
- Valina (V): 226, 262.
- Isoleucina (I): 238, 283.
- Treonina (T): 266. Glicosilación y fosforilación .
Además de estudiar la conservación desde la propia información del alineamiento múltiple, podemos buscar información posicional de nuestra proteína en la base de datos UniProtKB,en el campo " //Sequence annotations (Features)// ".
En primer lugar comprobamos que el péptido señal se encuentra entre las posiciones 1 y 39. Es importante mencionar que este péptido señal se conserva al 100% en las tres cepas de M. tuberculosis, mientras que en el resto no existe tal conservación (curioso porque normalmente no suelen conservarse). Este péptido señal será el encargado de transportar la proteína a la membrana plasmática de Mycobacterium, ya que esta proteína una vez codificada debe situarse en la membrana para cumplir su función en el organismo. El resto de la proteína se encuentra entre las posiciones 40 y 325, presentando una longitud de 286 aminoácidos.
Por otro lado nos encontramos con una serie de regiones repetidas a lo largo de la secuencia de Apa , como son:
- [DA]-P-N-A (posición 85-88): está presente en las tres cepas de M. tuberculosis, M. leprae, M. marinum y M. intracellulare .
- [DA]-P-N-A (posición 94-97): se encuentra en todos los organismos, excepto en M. ulcerans, M. kansasii y M. abscessus.
- [DA]-P-N-A (posición 104-107): presente en todos los organismos menos en M. abscessus .
Esto podíais haberlo comparado con las repeticiones en los CDS, y os hubiera quedado muy bonito.
El alto grado de conservación de esta región en distintas posiciones, nos lleva a pensar que esta región posee una función importante para la proteína. Debido al papel que juegan los cuatro aminoácidos en la proteína, cabe destacar la Asparragina (N), implicada en la formación de puentes de Hidrógeno y N-glicosilación; y la Alanina (A), implicada en el reconicimiento de substrato ó especificidad. El hecho de que esta región no está presente en todos los organismos analizados nos impide afirmar que la función de estos aminoácidos sea la comentada.
A continuación analizaremos los distintos sitios de glicosilación que aparecen en la base de datos:
- Treonina (posición 49): sólo se observa en las tres cepas de M. tuberculosis (H37Rv, CDC1551, T92).
- Treonina (posición 57): se encuentra en las tres cepas de M. tuberculosis, en M. leprae y en M. abscessus .
- Treonina (posición 66): aparece en las tres cepas de M. tuberculosis , al igual que en la primera.
- Treonina (posición 316): está únicamente en dos de las cepas de M. tuberculosis , H37Rv y CDC1551.
Las Treoninas situadas en las posiciones 49, 57 y 66, se encuentran en las tres estirpes de M. tuberculosis , por lo que es posible afirmar que estos sitios de glicosilación realmente existen en ellas. Sin embargo la Treonina 316 no sigue un patrón característico, ya que no está ni en todas las cepas de M. tuberculosis , ni en todos los organismos, por lo que no podemos tener la certeza de que sea un sitio de glicosilación fundamental en la proteína. Cabe mencionar que los aminoácidos que se glicosilan pueden ser tanto serina como treonina, es por ello que si apareciese una serina se mantendría la opción de glicosilación, pero en nuestro caso, observamos que hay un gaps.
Por último nos encontramos con una "secuencia conflicto", en la que hay una fenilalanina (F) situada en la posición 136 de M. tuberculosis H37Rv, mientras que en el resto de Mycobacterium estudiados aparece el aminoácido Leucina (L). Esto indica que un autor reportó la existencia de F y otro autor la de L en esta posición, siendo lo más lógico pensar que el primer autor cometió una errata. Otra posibilidad para explicar esta secuencia conflicto, sería la existencia de distintos alelos silvestres.
Cabe mencionar que todos estos resultados obtenidos en el alinemaiento coinciden con los obtenidos en pasos anteriores en la ficha del UniProtKB.
Una vez realizado y estudiado el alineamiento múltiple de proteínas, llevaremos a cabo un análisis de las secuencias CDSde Apa , pero este caso, no se estudiará las características posicionales. Para ello, utilizamos igual que en el caso anterior, el programa ClustalX e introducimos las secuencias de CDS de los 13 organismos homólogos de Apa que estamos estudiando. Realizamos el alineamiento de estas secuencias, y se generan dos ficheros con las extensión ".aln" y ".dnd" como en el caso del alineamiento de aminoácidos.
A continuación abrimos el fichero con la extensión ".aln" con el programa BioEdit, para poder analizar la conservación de las secuencias CDS de Apa y destacar algunos dominios conservados.
En este fichero podemos observar 2 regiones que presentan una gran cantidad de nucleótidos conservados, 560-642 y 700-790 y otras dos regiones más pequeñas donde también se aprecian ciertos bases conservadas, 430-475 y 490-520. Por otro lado, la zona inicial y terminal principalmente estan compuestas de gaps, por lo que podemos considerar inserciones o delecciones significativas, siempre y cuando estas sucedan en un múltiplo de tres, lo que hace referencia a la adicción o supresión de aminoácidos. Esto puede comprobarse en el alineamiento de aminoácidos, si las zonas con gaps del alineamiento de CDS concide con supresiones o adiciones de aminoácidos en estas regiones. Sin embargo, las regiones con gaps en el alinemiento de CDS que no se den en múltiplo de tres, se corresponden probablemente con errores en el alineamiento debido a la diferencia de longitud entre las distintas secuencias. Bien
Al visualizar este fichero podemos deducir que, al igual que en el caso del alineamiento de aminoácidos, la región más conservada de la proteína Apa es la región central, estando los extremos muy poco conservados.
Igual con las repeticiones.
El fichero generado con extensión ".dnd" nos servirá además para constrtuir los árboles filogenéticos, para realizar un análisis filogenético.
4 . 2. ANÁLISIS FLOGENÉTICO
4.2.1. Árboles Filogenéticos
Al abrir los ficheros ".dnd" con el programa TreeView, se construyen los árboles filogenéticos a partir de los datos del alineamiento de aminoácidos y CDS. Con este programa podemos construir tres tipos distintos de árboles:
- Arbol filogenético sin raíz : muestran la topología de las relaciones entre un conjunto de individuos pero no un patrón de descendencia o un orden cronológico.
- Cladograma : diagrama que permite representar el parentesco evolutivo entre las especies. La base del árbol representa un antepasado común para los organismos o grupos ubicados al final de las ramas .
- Filograma:muestra relaciones genealógicas entre organismos. Difiere del cladograma en que las ramas se dibujan proporcionales a la cantidad de cambio evolutivo, por lo que permite ver las distancias relativas entre secuencias.
Además, para enraizar bien el árbol y ordenar adecuadamente las secuencias, definimos una especie externa, la cual debería ser la secuencia más alejada evolutivamente del resto. En nuestro caso, hemos tomado Mycobacterium abscessus , ya que según los resultados del BLASTp (e-value, identidad y similitud) y del alineamiento (menos regiones conservadas), pensamos que es el organismos más alejado evolutivamente.
Los árboles obtenidos con el programa TreeView son los siguientes:
ÁRBOLES --> ALINEAMIENTOS PEPTÍDICOS
Figura 5. Árbol filogenético sin raíz obtenido mediante el alineamiento de la proteína Apa.
Figura 6. Cladograma obtenido mediante el alineamiento de la proteína Apa.
Figura 7. Filograma obtenido mediante el alineamiento de la proteína Apa. Con el filograma hubiera sido suficiente
ÁRBOLES --> ALINEAMIENTOS NUCLEOTÍDICOS Figura 8. Árbol filogenético sin raíz obtenido mediante el alineamiento de la CDS de Apa.
Figura 9. Cladograma obtenido mediante el alineamiento de la CDS de Apa.
Figura 10. Filograma obtenido mediante el alineamiento de la CDS de Apa.
Si observamos ambos grupos de árboles, peptídicos y aminoacídicos, podemos apreciar grandes diferencias entre ellos. A grandes rasgos podemos mencionar que en ambos casos se diferencian principalmente tres grupos, pero formado cada uno de ellos por diferentes organismos. En los árboles obtenidos mediante alineamiento de la proteína Apa, se aprecian tres grupos formados por: M. abscessus; M. smegmatis, M. gilvum y M. vanbaalenii; y un tercer grupo que engloba al resto. Sin embargo, en el caso del alinemiento de la CDS se distinguen los grupos: M. abscessus; M. tuberculosis H37Rv, T92 y CDC 1551, M. kansasii y M. marinum; y otro grupo formado por resto de organismos. También cabe destacar que los filogramas, donde se representan las distancias evolutivas entre los organismos, son los diagramas en los cuales encontramos más diferencias. En el filograma de CDS, se aprecian mayores distancias evolutivas que en el filograma obtenido por el alineamiento de la secuencia proteica. Estas diferencias podrían explicarse por la degeneración del código genético, ya que mutaciones ocasionadas en las bases nucleotídicas pueden no afectar a la secuencia proteíca. También puede ser debido a las distintas isoformas tomadas al coger los CDS. De esta manera, la secuencia de la proteína se encuentra más conservada y la distancia evolutiva entre los distintos organismos será menor en este caso. E incluso podría deberse a que no se ha conseguido un buen alineamiento de CDSs (no por vuestra culpa, claro) debido a la baja similitud que hay en determinadas zonas.
4.2.2. Matrices de Distancia
Otra forma de comparar las relaciones evolutivas entre las secuencias de las prácticas anteriores, es generar una matriz de distancia, donde podemos ver el porcentaje de identidad que existe entre cada par de secuencias. Para ello abrimos el fichero ".aln" desde el programa ClustalX, y se creará un fichero con extensión ".pim", el cual contendrá la matriz de distancia.
Matriz de distancia peptídica
Al observar esta matriz, vemos que las tres cepas de M. tuberculosis presentan una identidad del 100%. Estos resultados concuerdan con el árbol filogenéticos obtenido con ClustalX, indicándonos que han seguido el mismo camino evolutivo. Por otra parte, M. gilvum y M. banvaalenii poseen una identidad del 85 %, con lo que deducimos que están muy cercanos evolutivamente. Además, M. ulcerans, M. marinum y M. Kansasii muestran una identidad del 79 %. Por último, podemos concluir que M. abscessus es el organismo más alejado evolutivamente del resto, ya que presenta una identidad muy baja en todos los casos.
Matriz de distancia nucleotídica
En primer lugar, observamos que de nuevo las tres cepas de M. tuberculosis presentan un 100 % de identidad. Además, estas tres cepas frente a M. kansasii muestran una identidad del 78 %. Por otro lado, M.avium y M. intracellulare tienen una identidad del 87 %; y M. kansasii y M. marinum poseen un 87 % de identidad. Finlamente, volvemos a ver que M. abscessus presenta identidades muy bajas respecto al resto de organismos.
Comparando ambas tablas, observamos que el porcentaje de identidad de proteínas es mayor que las identidades de CDS (se verifica el resultado obtenido en los árboles filogneéticos) en todos los organismos. Estas diferencias, son debidas principalmente a la degeneración del código genético (mutaciones silenciosas) o también a la posibilidad de tomar distintas isoformas al coger los CDS, como ya se ha comentado anteriormente.
5. BÚSQUEDA DE DOMINIOS Y MOTIVOS Tras introducir la secuencia aminoacídica de nuestra proteína en la base de datos Pfam , se obtiene el siguiente resultado:
Figura 11: Dominio obtenido con la base de datos Pfam
Como se puede apreciar, nuestra proteína presenta un único dominio perteneciente a la familia FAP (PF07174). Este dominio abarca casi la totalidad de su secuencia.
- Sumario : Esta familia contiene proteínas bacterianas de unión a fibronectina. Los miembros de esta familia son ricos en alanina y prolina, presentan una longitud de unos 300 aminoácidos y parecen ser únicos del género Mycobacterium. Estas proteínas contienen un motivo de unión a fibronectina, el cual permite a mycobacterium adherirse a la fibronectina de la matriz extracelular. - Organización de dominios:existen 20 secuencias con la arquitectura de esta familia de dominios, pertenecientes a organismos ya mencionados anteriormente ( M. gilvum, M. avium, M. leprae….). Podemos observar que este dominio siempre aparece solo. - Alineamiento múltiple: es posible llevar a cabo dos alineamientos, uno con pocas secuencias (secuencias semilla o “seed”) y otro con todas las proteínas conocidas de la familia (alineamiento completo o “full”). En el primero se comparan 8 secuencias, mientras que en el segundo se comparan las 20 secuencias totales. Puesto que 20 no son muchas secuencias, nos centraremos en el alineamiento “full” . Este alineamiento debe ser similar al generado en el apartado anterior pero más completo, al incluir todas las proteínas conocidas de la familia. De modo que, podremos comparar los alineamientos múltiples encontrados, con los obtenidos anteriormente y comprobar si los aminoácidos, motivos y dominios encontrados como conservados siguen manteniendo esa propiedad en la familia completa.
Tras realizar el alineamiento, los resultados obtenidos se pueden estudiar en el siguiente link:
O bien, si quiere visualizarlo en formato HTML; pinche sobre este otro link:
Figura 12: Región altamente conservada
En este alineamiento se puede observar una región inicial poco conservada en la que aparecen numerosos gaps. Desde la posición 215 a 300 aproximadamente, correspondiente a la imagen superior, existe una alta conservación de esta secuencia en toda la familia. También, se puede apreciar otra zona bastante conservada que abarca desde la posición 310 a la 350. Podríamos considerarlas como una gran región conservada.
Estos resultados concuerdan con los obtenidos con el ClustalX, a excepción de que anteriormente consideramos que la región conservada abarcaba desde la posición 170-350, puesto que aparecían un número muy reducido de gaps. El hecho de que existan diferencias entre este alineamiento y el realizado en la práctica anterior se debe a que en la base de datos Pfam también se emplea ClustalW como herramienta de alineamiento, por lo que Pfam lleva a cabo un alineamiento con un mayor número de secuencias que en la práctica anterior.
- HMM logo: este gráfico nos permite estudiar que residuos están más conservados en el grueso de proteínas que componen esta familia. En este tipo de gráfico es importante la posición en cuanto a la altura de los diferentes aminoácidos, ya que posiciones más altas se corresponden con mayor conservación de secuencia y proporcionará mayor información. Además, la altura de cada residuo indica su frecuencia en esa posición.
Figura 13: Gráfico HMM logo
En la imagen superior, se puede observar una región donde la frecuencia de que aparezca una prolina es muy elevada. Además, como es el aminoácido que presenta la posición superior, podemos mencionar con bastante certeza de que este aminoácido se encuentra conservado en muchos de los organismos estudiados. Para afianzar más esta hipótesis, hemos analizado estas posiciones en el alineamiento obtenido con ClustalX, comprobándose que la mayoria de las prolinas aquí encontradas, aparecen en las secuencias aminoacídicas de la mayoría de los organismos del género Mycobacterium que estamos estudiando. Este hallazgo, nos lleva a pensar que estos residuos de prolinas presentan un papel importante en la función de la proteína Apa, probablemente siendo los responsables de giros en la estructura 3D. Bien
Para poder visualizar el gráfico completo, pincha sobre el siguiente link: HMM logo
- Árboles : A continuación se muestran los árboles filogenéticos obtenidos por el algoritmo UPGMA desde el alineamiento múltiple de Pfam.
Figura 14: Árbol obtenido en Pfam ("seed")
Figura 15: Árbol obtenido en Pfam ("full")
Los nombres que aparecen en estos árboles, hacen referencia a los Identificadores y Accesion number de UniProt. Conociendo el organismo al que corresponde cada código, podemos comparar estos árboles con los obtenidos mediante el alineamiento múltiple utilizando el programa ClustalX y TreeView. Sin embargo, esta comparación no es fácil, ya que los organismos que aparecen en los árboles realizados con Pfam, tanto "seed" como "full" son distintos a los de los árboles realizados en el apartado anterior. Por este motivo, comentaremos sus principales diferencias, teniendo una visión global de los dos tipos de árboles:
- Si comparamos los árboles aminoacídicos generados con el alineamiento múltiple con ClustalX con el árbol "seed" de Pfam, podemos ver que las relaciones filogeneticas que se establecen no son idénticas. En el primer caso, se observan dos ramas principales, mientras que el árbol generado con Pfam se divide inicialmente en tres grupos. Sin embargo, un aspecto en común de ambos tipos de árboles, es que presentan tres grupos de organismos diferenciados claramente; aunque los organismos que componen esos grupos son distintos. Las diferencias que se observan, se deben en gran medida a que los organismos empleados para realizar el árbol son distintos en los dos casos. Cabe mencionar que Pfam contiene una amplia colección de alineamientos múltiples de secuencias cubriendo buena parte de dominios proteicos y familias comunes, por lo que el resultado de este programa es quizás más fiable que el obtenido con ClustalX. .
- El árbol "full" generado con Pfam, esta compuesto por 20 organismos del género Mycobacterium, y es muy dificil comparar con el árbol generado en la práctica anterior, debido a la diferencia en cuanto a número de organismos que lo componen.
Los apartados de interacción y estructura no aparecen en esta base de datos.
Tras la búsqueda en Pfam, procedimos a contrastar los resultados obtenidos utilizando la base de datos integrada InterPro, haciendo uso de la herramienta de búsqueda InterProScan.
Figura 16: Ventana de resultados de InterPro
Los motivos encontrados en las bases de datos SignalP y TMHMM se corresponden a un péptido señal y una región transmembrana. Puesto que no obtuvimos una ficha de Prosite (PS), procederemos a realizar un estudio usando dicha base de datos para enriquecer nuestros datos y conocimientos sobre la proteína Apa.
Haciendo uso de la base de datos PROSITE buscaremos pequeños motivos de secuencia. Estos motivos son de alta ocurrencia, es decir, pueden aparecer por simple azar. De modo que, debemos comprobar que estas regiones se encuentran conservadas en los distintos organismos (miramos el alineamiento). Si están conservadas, es posible que estos dominios posean la función esperada, pero si la región no está conservada, los motivos aparecen por simple azar.
Los resultados obtenidos son los siguientes:
Figura 17: Resultados obtenidos con PROSITE En primer lugar, obtenemos una región rica en alanina situada entre las posiciones 16 y 97. Al buscar esta región en el BioEdit, comprobamos que en la mayoría de los organismos se conserva. De igual forma, observamos que existen dos regiones ricas en prolina, encontrándose la primera de ellas entre las posiciones 41-110 y la segunda, entre la 285-324. Al estudiar en el BioEdit estas posiciones, vemos que se conservan sólo en las tres cepas de M. tuberculosis.
A continuación, pasaremos a analizar los posibles motivos que presenta nuestra proteína:
PS00001ASN_GLYCOSYLATION : sitio de N-glicosilación.
7-10: NLTR
161-164: NDTR
Debemos mirar en BioEdit, si estas regiones aparecen en la secuencia de nuestro organismo original en la posición indicada. Observamos que:
- La secuencia NLTR sólo se encuentra en las tres cepas de M. tuberculosis
- La secuencia NDTR se encuentra en todos excepto en los organismos M. gilvum, M. vanbaalenii, M. smegmatis y M. abscessus.
Ahora, pulsamos en el enlace del organismo (PS00001), donde podremos ver el “Consensum pattern”: N - {P} - [ST] - {P}
Esta fórmula significa que para que exista este sitio de n-glicosilación, el primer aminoácido tiene que ser forzosamente N, después cualquiera menos una P, después S o T, y finalmente cualquiera menos una P. N es el sitio de glicosilación.
De modo que, si volvemos a comprobar los organismos teniendo en cuenta esto último, observamos que:
- La secuencia NLTR sigue apareciendo únicamente en las tres cepas de M. tuberculosis
- La secuencia NDTR se encuentra en todos excepto en el organismo M. abscessus.
El hecho de que en el segundo caso, se de en todos los organismos excepto en uno, nos lleva a concluir que este sitio de N-glicosilación probablemente exista. En cambio, podemos afirmar que la secuencia NLTR no constituye un sitio de n-glicosilación.
Conlusiones:
- El sitio de N-glicosilación es específico de la secuencia consenso Asn-Xaa-Ser/Thr. - Cabe señalar que la presencia del consenso tripéptido no es suficiente para concluir que un residuo de asparragina sea glicosilado, debido al hecho de que el plegamiento de la proteína juega un papel importante en la regulación de la N-glicosilación.
- Se ha mostrado que la presencia de prolina entre Asn y Ser/Thr inhibe la N-glicosilación. Esto se ha confirmado mediante recientes análisis de los sitios de n-glicosilación, que muestran que alrededor del 50% de los sitios que tienen una prolina C-terminal a Ser/Thr no son glicolisados.
PS00005PKC_PHOSPHO_SITE: sitio de fosforilación de la proteína Kinasa C.
9-11: TrR 282-284: SiR
De nuevo, observamos en el BioEdit que:
- La secuencia TrR se encuentra en las tres cepas de M. tuberculosis y M. avium.
- La secuencia SiR aparece en todos los organismos excepto en M. intracellulare y M. avium.
Teniendo en cuenta el “ Concensum pattern”: [ST] - x - [RK] Para considerar la existencia de este sitio, se debe cumplir que el primer aminoácido sea S ó T, el segundo cualquiera, y el tercero R ó K.
Volvemos a estudiar el alineamiento obtenido mediante BioEdit y vemos que:
- La secuencia TrR se encuentra en los organismos mencionados anteriormente y además en M. leprae.
- La secuencia SiR es una región de elevada homología, ya que en todos, excepto en los organismos M. intracellulare y M. avium, se encuentra exactamente esta región.
El hecho de que la secuencia SiR no se encuentre en todos los organismos, nos lleva a pensar que esta secuencia no se corresponde realmente con un sitio de fosforilación de la Kinasa C.
Conlusiones:
- In vivo, la proteína kinasa C muestra una preferencia por la fosforilación de los residuos de serina ó treonina encontrados cerca de un residuo básico C-terminal. La presencia de residuos básicos adicionales en N-o C-terminal del aa aminoácido específico aumenta la Vmax y la Km de la reacción de fosforilación.
PS00006CK2_PHOSPHO_SITE:Sitio de fosforilación de la proteína Caseína Kinasa II.
146-149: TtgD222-225: SyyE Mirando en BioEdit:
- La secuencia TtgD se encuentra sólo en las tres cepas de M. tuberculosis.
- La secuencia SyyE es una región de completa similitud, ya que se encuentra en todos los organismos.
Teniendo en cuenta el “ Concensum pattern”: [ST] - x(2) - [DE]
Significa que el primer aminoácido puede ser S ó T, el segundo y el tercero cualquiera, y el cuarto D ó E.El sitio de fosforilación se corresponde a los aminoácidos S ó T.
De nuevo observamos en BioEdit que:
- La secuencia TtgD aparece también en M. smegmatis.
Puesto que la secuencia SyyE se encuentra en todos los organismos, podemos afirmar que este sitio es realemente un sitio de fosforilación. En cambio, la secuencia TtgD podría ser fruto del azar debido a su baja frecuencia.
Conlusiones:
- La Caseína Kinasa II es una proteína serina/treonina kinasa cuya actividad es independiente de nucleótidos cíclicos y calcio. Esta proteína fosforila a numerosas proteínas diferentes.
- La especificidad de sustrato de esta enzima es :
1. Bajo condiciones comparables, la serina es favorecida sobre la treonina.
2. Para incrementar el ratio de fosforilación, debe haber residuos acídicos adicionales en las posiciones +1, +2, +4 y +5, ya que la mayoría de los sustratos fisiológicos tienen al menos un residuo acídico en estas posiciones.
3. El ratio de fosforilación es disminuido por la presencia de un residuo básico en el extremo N-terminal del sitio aceptor.
190-195: GSdmGE
216-221: GVsgSA
Mirando en BioEdit:
- La secuencia GSdmGE se encuentra en todos los organismos excepto en los organismos M. gilvum, M. vanbaalenii, M. smegmatis y M. abscessus.
- La secuencia GVsgSA aparece en las tres cepas de M.tuberculosis y en M. kansasii.
Teniendo en cuenta el “ Concensum pattern”: G - {EDRKHPFYW} - x(2) - [STAGCN] - {P}
Significa que el primer aminoácido es G, el segundo cualquiera excepto {}, el tercero y el cuarto cualquiera, el quinto alguno de los citados, y el sexto cualquiera excepto P. El sitio de N-miristoilación se corresponde al aminoácido G.
Si miramos en Bioedit:
- La secuencia GSdmGE: se cumple lo explicado anteriormente.
- La secuencia GVsgSA aparece en todos los organismos excepto en M. gilvum, M. vanbaalenii y M. smegmatis.
Dado que en ambos casos, las secuencias no se encuentran en toda la familia, podemos concluir que este sitio de miristoilación no exista y, por tanto, sea fruto del azar.
Conlusiones:
Un número apreciable de proteínas procariotas son acetiladas por la adición covalente de miristato, un ácido graso saturado de 14 carbonos, a su residuo N-terminal. La especificidad de secuencia de la enzima responsable de esta modificación, denominada meristoil-CoA (proteína transferasa N-meristoil), ha sido derivada de la secuencia de proteínas N-miristoiladas conocidas y de estudios usando péptidos sintéticos. Se deduce lo siguiente:
1. El residuo N-terminal deber ser una glicina.
2. En la posición 2, los residuos pueden variar siempre y cuando no sean grandes residuos hidrofóbicos o prolina.
3. En las posiciones 3 y 4, todos los residuos son permitidos.
4. En la posición 5, pueden aparecer una pequeña variedad de residuos (Ala, Ser, Thr, Cys, Asn and Gly), siendo la serina la más favorecida.
5. En la posición 6, aparecerá cualquier residuo excepto la prolina.
Vaya curro! Muy bien estudiado. 6. PREDICCIÓN DE LA ESTRUCTURA 3D En primer lugar, debemos comprobar si la proteína Apa tiene una estructura conocida. Para ello, buscamos en la ficha de la proteína de UniProt, en el campo “cross referente” un enlace a la base de datos PDB (base de datos de estructuras 3D de moléculas biológicas), o en su defecto un enlace a HSSP (base de datos de homología de estructuras 3D). Al entrar en la ficha de nuestra proteína, comprobamos que no tiene enlace para estas bases de datos de predicción de estructura. Por este motivo, para dilucidar la estructura de Apa tendremos que utilizar otro recurso: Swiss-Model.
Para ello, seleccionamos el método "First Approach mode" en el menú "Modeling requests" de Swiss-Model, pegamos la secuencia de aminoácidos de Apa de M. tuberculosis. Mediante este método, no hemos obtenido ningún resultado, por lo que procedemos a realizar un análisis manual mediante "Alignment Interface" del Swiss-Model. Para ello, usamos el BLAST del EBI y obtenemos el siguiente alineamiento:
>apa
PAANAPDAGPPQRWFVVWLG
>2DK7A
PVATAPIPGTP--WCVVWTG
Cabe mencionar que el e-value de este alineamiento es mayor que 1, por lo que probablemente el modelo que hemos obtenido no sea muy bueno.
A continuación, introducimos esta secuencia en "Alignment Interface", obteniéndose la siguiente estructura: Estructura proteína
Faltan datos sobre los resultados SWISS-MODEL.
En el gráfico Anolea, resultado que obtenemos de la predicción de la estructura con Swiss-Model, podemos observar cuáles son las zonas favorablemente energéticas, energía baja (color verde), y las desfavorablemente energéticas, energía alta (color rojo). De esta forma, podemos ver que una de las zonas de alta energía se corresponde con el giro de la estructura de la proteína (Glicina-Prolina-Prolina).
Seguidamente, visualizaremos la estructura obtenida con el programa RasMol:
Figura 18: Estructura de la proteína Apa visualizada con RasMol.
A continuación, buscamos en la ficha UniProt la región obtenida en el alineamiento, con el fin de poder determinar a qué posiciones se corresponden los 20 aminoácidos que constituyen la estructura obtenida de la proteína. Encontramos que esta cadena está situada en las posiciones 246 (color morado), que se corresponde con el aminoácido prolina; y 265 (color amarillo), que se corresponde con el aminoácido glicina. Muy bien
La estrucutra obtenida son dos láminas plegadas beta que se caracterizan por una disposición antiparalela, conectadas lateralmente por puentes de hidrógeno. En nuestro caso, el aminoácido localizado en la posición 249 (cuarto aminoácido de la cadena, resaltado de color naranja) se corresponde con una asparragina, aminoácido implicado en la formación de puentes de hidrógeno, por lo que podemos llegar a pensar que en este punto de la estructura se de un enlace de este tipo. Además, podemos observar en la figura (también resaltado de color naranja) que justo en el giro de la estructura protéica aparecen dos aminoácidos prolina, situados en las posiciones 255 y 256 de la proteína; y un aminoácido glicina, en la posición 254. Ambos aminoácidos suelen estar presentes en los giros estructurales, y en este caso se corrobora la teoría.
Por otro lado, hemos procedido a estudiar los resultados obtenidos en el alineamiento múltiple y comprobar si los residuos conservados se hallan en esta región de estudio. De todos los aminoácidos que se conservaban en todas las especies en la región central, sólo los siguientes (color verde en la figura) aparecen en esta cadena de 20 aminoácidos: Fenilalanina (posición 260), Valina (posición 262), Triptófano (263), Leucina (264) y Glicina (265).
Para finalizar con el estudio de la estructura hemos analizado las regiones de interés (regiones repetidas, secuencia conflicto, sitios de fosforilación, sitios de miristoilación...) encontradas en los apartados anteriores, observando que ninguna de ellas está presente en la cadena obtenida.
Para concluir, procedemos a buscar en la base de datos CATH. Pero, como hemos visto, nuestra proteína no presenta un buen modelo de estructura. El hecho de que tanto nuestra proteína, como la proteína homóloga a la nuestra encontrada anteriormente carezcan de ficha PDB, nos impiden continuar con el análisis de la estructura mediante la base de datos CATH.
7. ANÁLISIS DE EXPRESIÓN GÉNICA Finalmente vamos a analizar experimentos de microarrays de expresión diferencial realizados sobre nuestro gen mediante el buscador ArrayExpress.
En primer lugar, realizamos la búsqueda con el nombre completo del gen "apa,modD,Rv1860,MT1908,MTCY359.13", pero no obtuvimos resultados. Por ello, procedimos a probar con el nombre “apa”, pero tampoco obtuvimos ningún resultado. Por último, probamos a introducir el dominio FAP, implicado en la adhesión a la matriz extracelular de la célula huésped. Pero desgraciadamente no conseguimos resultados satisfactorios, de modo que no podemos llevar a cabo este estudio.
1. BÚSQUEDA EN BASES DE DATOS MOLECULARES
Al utilizar la base de datos UniProtKB y SRS, hemos obtenido un fichero en formato multi-FASTA, compuesto por cuatro secuencias: M. tuberculosis, M. bovis, M. avium y M. leprae.
Como se puede comprobar, todas las secuencias aminoacídicas de la proteína Apa pertenecen a organismos del mismo género, probablemente porque es una proteína específica de Mycobacterium debido a la especificidad de su función. Es por ello que este análisis bioinformático se basará en un estudio de la secuencia protéica dentro del género Mycobacterium.
De los organismos anteriormente citados hemos obtenido las secuencias nucleotídicas de la región codificante de la proteína Apa (CDS), las cuales están recogidas en el siguiente fichero multi-FASTA:
En la búsqueda de secuencias homólogas basadas únicamente en el nombre de la proteína es dificil cerciorarse de que las proteínas encontradas sean verdaderamente homólogos. En los casos en los que existe una conservación evolutiva elevada es más probable que las proteínas presenten cierta similitud. En nuestro caso, hemos obtenido tres posibles homólogos ( M. bovis, M. avium y M. leprae) a nuestra secuencia de referencia (proteína Apa de M. tuberculosis ). Posteriormente mediante un BLAST comprobaremos si los organismos seleccionados son homólogos para la proteína Apa, ó por el contrario, descarteremos estas secuencias.
2. BÚSQUEDA DE SIMILITUD
Tras realizar un análisis de alineamiento con BLASTp con BLOSUM62, los resultados obtenidos son los siguientes:
Figura 1: Esquema de los dominios conservados de la proteína Apa
Se puede comprobar que existen dos dominios conservados de la proteína Apa que se corresponden con la superfamilia FAP (fibronectin-attachment protein). Esta familia contiene proteínas bacterianas de unión a fibronectina. Los miembros de esta familia son ricos en alanina y prolina, presentan una longitud de unos 300 aminoácidos y parecen ser únicos del género Mycobacterium. Estas proteínas contienen un motivo de unión a fibronectina, el cual permite a Mycobacterium adherirse a la fibronectina de la matriz extracelular.
En concreto, se observa que el primer dominio abarca desde el aminoácido 1 hasta el 40, y el segundo desde el aminoácido 110 al 285 aproximadamente.
Figura 2: BLASTp de Apa con BLOSUM62
Podemos observar que el segundo dominio se encuentra más conservado que el primero, ya que hay un mayor número de organismos candidatos pertenecientes al género Mycobacterium que presentan una alta similitud con ese dominio.
En los resultados obtenidos en el alineamineto, se han obtenido 27 candidatos homólogos a la proteína Apa . Entre ellos, se encuentran cepas y subespecies de M. tuberculosis y de otras especies; de las cuales solo nos centraremos en especies distintas a M. tuberculosis y diferentes cepas de ésta, para llevar a cabo un estudio de parálogos. A continuación, mostramos una tabla donde se resumen los datos más relevantes de cada organismo tomados del apartado "Alignments" de los resultados obtenidos con el BLAST.
Como comentamos en el apartado anterior, la búsqueda de similitud en base al nombre de la proteína es poco fiable puesto que dos proteínas pueden tener el mismo nombre pero no cumplir la misma función. Es por ello, por lo que hemos realizado un análisis con BLAST, obteniéndose como resultado muchos más organismos candidatos que con UniProt, ya que presentan un e-value mucho menor a 0,02. Los valores tan bajos de e-value nos lleva a pensar que las proteínas de estos organismos son realmente homólogas a la proteína Apa de M. tuberculosis . Además, es digno de mencionar que el organismo M.bovis , el cual apareció como posible homólogo usando UniProt, no se observa en los resultados con BLAST. Esto puede ser debido a que la proteína Apa de este organismo, aunque presenta el mismo nombre, su secuencia es diferente y muy probablemente no desempeñe la misma función en el organismo. (se puede comprobar alineando sólo la secuencia de referencia contra esta otra)
Respecto a los porcentajes de identidad, cabe señalar que todos ellos superan el valor umbral de 45%. De este modo, podemos afirmar con bastante certeza que la función y plegamiento tridimensional de las proteínas de los organismos estudiados, son iguales a los de la proteína Apa de M. tuberculosis. Para mayor seguridad, buscamos en bases de datos las funciones de estas proteínas, las cuales presentan función desconocida. Sin embargo, se conoce que están implicadas en el proceso de adhesión de la bacteria al huésped, al igual que Apa. Por lo tanto, como comparten la misma función es de esperar que sean proteínas muy parecidas y con una estructura tridimensional similar. (no sé si el Blast os filtró las secuencias de baja complejidad, ricas en P y A, lo cual puede haberos dado similitudes confusas)
Finalmente, hemos recogido la secuencia aminoacídica y CDS de cada candidato:
En el archivo "cds.txt" observamos que en algunas secuencias el codón de inicio del CDS no se corresponde con ATG u otros encontrados en la base de datos. Esto nos lleva a pensar que la secuencia del CDS encontrada está incompleta. O que Mycobacterium no utiliza el código genético estándar.
3. ANÁLISIS DE SECUENCIAS NO CODIFICANTES MEDIANTE MATRICES DE PUNTOS
Con el fin de encontrar nuevas secuencias reguladoras conservadas entre los organismos de estudio, o verificar las regiones reguladoras ya existentes, analizaremos las regiones 5´ no codificantes (UTR 5´) de 4 organismos homólogos que presentan la proteína Apa. Si comprobamos que aparecen algunas regiones conservadas, se compararán con secuencias reguladoras de la transcripción registradas en base de datos públicas.
Tras acceder a la ficha completa de la proteína en la base de datos UniProt, de los organismos seleccionados: M. tuberculosis, M. marinum, M. leprae y M. ulcerans , se comprueba que nuestras secuencias proteicas no poseen región 5´ no codificante; ya que la secuencia CDS comienza en el nucleótido 1 del gen Apa . En los esquemas que se muestran a continuación, se puede observar que el gen completo se corresponde a la CDS, no existiendo región 5´no codificante. Si desea entrar en el apartado GeneID de la base de datos UniProt para buscar más información, haga doble click sobre la imagen.
Figura 3: Gen apa y región codificante (CDS) de los cuatro organismos estudiados.
Como nuestras secuencias proteicas no poseen región UTR 5´, procederemos a realizar matrices de puntos para analizar regiones conservadas de las regiones traducidas (CDS), mediante el programa BioEdit. Al emplear este programa, enfrentamos la secuencia CDS de Apa de Mycobacterium tuberculosis con las secuencias de esta misma proteína del resto de organismos. Como resultado se obtienen 3 matrices de puntos, donde se pueden observar diagonales de distinta longitud que representan zonas conservadas entre las proteínas. Según la longitud de las diagonales podemos afirmar:
- Diagonal larga : simboliza regiones largas de similitud entre las proteínas, debido a que han divergido muy poco en el tiempo. Además, si esta diagonal se encuentra en la diagonal de la matriz, se confirma aún más esta hipótesis.
- Diagonal corta: representa regiones cortas conservadas entre las porteínas enfrentadas.
A continuación, se muestran las matrices obtenidas mediante BioEdit, al enfrentar las CDS de la proteína Apa de los distintos organismos pertenecientes a Mycobacterium, siempre tomando como referencia M. tuberculosis .
Mycobacterium tuberculosis vs Mycobacterium marinum
En esta matriz podemos observar claramente una diagonal central, muy bien definidad. Esto hace referencia a la existencia de una región conservada entre la CDS de Apa de M. tuberculosis y M. marinum , debido probablemente a que estas regiones apenas han divergido. Esta hipótesis se refuerza por el hecho de que la diagonal forma una imagen especular de la matriz, hayándose justo en la diagonal de la misma. Además, también se observa una región con multitud de diagonales cortas, por lo que podemos intuir que existe también una región de similitud más pequeña entre estas secuencias. Eso son repeticiones de secuencia (probablemente de los tripletes de la región rica en A y P.
Mycobacterium tuberculosis vs Mycobacterium leprae
En esta matriz, a diferencia de la anterior, no se observa una diagonal larga. En este caso, aparecen multitud de diagonales cortas repartidas por toda la matriz que sobresalen respecto al ruido de fondo, pero fundamentalmente se concentran en la esquina izquierda inferior (región marcada en azul). Por este motivo, no podemos afirmar que existan amplias regiones conservadas entre estas proteínas, sino regiones pequeñas que presentan cierta similitud. Además, cabe destacar que este grupo de diagonales pequeñas se encuentran en la diagonal de la matriz, por lo que la similitud entre las pequeñas regiones conservadas es posible que sea alta.
Mycobacterium tuberculosis vs Mycobacterium abscessus
En esta última matriz, se enfrentan las secuencias CDS de Apa de M. tuberculosis y de M. abscessus . Como se puede observar, aparece una diagonal central, formando una imagen especular de la matriz. Sin embargo, no esta tan claramente diferenciada como en el caso de M. tuberculosis vs M. marinum, pudiendo deducir de ello que la secuencia CDS de Apa de M. marium es más similar a la de M. tuberculosis, que la de M. abscessus. Además, como la diagonal se haya en el centro de la matriz, se puede afirmar con más seguridad la similitud entre estas dos secuencias. Cabe destacar también, que aparecen diagonales cortas agrupadas fundamentalmente en 3 regiones (marcadas en rosa), de nuevo repeticiones. Dos de estas regiones, se encuentran en la diagonal de la matriz, por lo que podemos intuir que la similitud de estas regiones cortas es elevada. Sin embargo, una de las regiones no se encuentra en la diagonal de la matriz, por lo que la similitud entre estas secuencias de la proteínas, será menor o incluso la similitud puede ser fruto del azar.
Según los resultados obtenidos, podemos concluir que la escala de similitud, de mayor a menor, entre la secuencia CDS de Apa de M. tuberculosis y las secuencias de Apa de los organismos de estudio, es: M. marinum, M. abscessus y M. leprae .
Os ha faltado la discusión sobre las repeticiones de secuencia.
4. ALINEAMIENTOS MÚLTIPLES Y FILOGENIA
4.1.CONSTRUCCIÓN DE ALINEAMIENTOS MÚLTIPLES
Para el análisis de las regiones conservadas entre las secuencias aminoacídicas de Apa utilizamos el programa ClustalX, en el que introducimos las secuencias protéicas en formato FASTA de los 13 organismos homólogos encontrados. Tras obtener el alineamiento múltiple (Figura 4) se generan dos ficheros: uno con la extensión ".aln" y otro con la extensión ".dnd".
A continuación abrimos el fichero con la extensión ".aln" generado en ClustalX con el programa BioEdit, y en él podremos estudiar la conservación de secuencia de las diferentes partes de interés del alineamiento, y discutir los resultados.
Para poder interpretar los resultados es necesario saber lo que representa cada símbolo. El "*" hace referencia a aminoácidos idénticos; ":" se refiere a aminoácidos distintos, pero con características fisicoquímicas iguales; y "." significa que los aminoácidos son distintos además de poseer características similares, aunque menos (y luego ya, las posiciones que no tienen nada).
Como visión global del alinemiento podemos destacar tres regiones claramente diferenciadas:
- Región inicial (1-169): región poco conservada en la que se observan multitud de gaps, que podrían corresponderse con zonas bisagra, uniendo distintos dominios, o zonas de lazo de la estructura proteíca.
- Región central (170-350): región altamente conservada en la que nos centraremos a continuación.
- Región terminal (351-435): es la región menos conservada de la proteína y en la que se observan un mayor número de gaps.
Ok
Seguidamente analizaremos los aminoácidos que se conservan en la región central de la proteína. El hecho de que sean aminoácidos conservados en todas las especies, significa que es muy probable que presenten una función fundamental en la proteína. A continuación se registran las posiciones (tomando como referencia M. tuberculosis H37Rv) de estos aminoácidos y sus posibles implicaciones:
- Arginina (R): 112, 169, 204. Uniones externas ó en el núcleo protéico.
- Asparagina (N): 115, 206. Puentes de Hidrógeno y N-glicosilación.
- Glicina (G): 118, 119, 127, 139, 168, 194, 202, 236, 244, 265. Función estructural debido a su pequeño tamaño y ausencia de carga.
- Fenilalanina (F): 120, 196, 228, 260.
- Serina (S): 121, 131, 191, 222, 282. Glicosilación ó fosforilación.
- Prolina (P): 125, 199, 201, 270, 289. Función estructural (plegamiento de la estructura).
- Triptófano (W): 128, 259, 263. Función estructural.
- Tirosina (Y): 138, 223, 224. Fosforilación. (todo esto es predictivo, o está contrastado?)
- Leucina (L): 142, 143, 170, 174, 189, 264.
- Ác. Aspártico (D): 171, 192, 230. Uniones externas ó en el núcleo protéico.
- Alanina (A): 176, 178, 185, 186, 276. Reconocimiento de substrato ó especificidad.
- Ác. Glutámico (E): 179, 195, 225. Uniones externas ó en el núcleo protéico.
- Lisina (K): 184, 227, 233. Uniones externas ó en el núcleo protéico y es acetilable.
- Arginina (R): 188, 258. Uniones externas ó en el núcleo protéico.
- Metionina (M): 193.
- Glutamina (Q): 207, 237. Función estructural, puente de hidrógeno.
- Valina (V): 226, 262.
- Isoleucina (I): 238, 283.
- Treonina (T): 266. Glicosilación y fosforilación .
Además de estudiar la conservación desde la propia información del alineamiento múltiple, podemos buscar información posicional de nuestra proteína en la base de datos UniProtKB,en el campo " //Sequence annotations (Features)// ".
- [DA]-P-N-A (posición 85-88): está presente en las tres cepas de M. tuberculosis, M. leprae, M. marinum y M. intracellulare .
- [DA]-P-N-A (posición 94-97): se encuentra en todos los organismos, excepto en M. ulcerans, M. kansasii y M. abscessus.
- [DA]-P-N-A (posición 104-107): presente en todos los organismos menos en M. abscessus .
Esto podíais haberlo comparado con las repeticiones en los CDS, y os hubiera quedado muy bonito.
El alto grado de conservación de esta región en distintas posiciones, nos lleva a pensar que esta región posee una función importante para la proteína. Debido al papel que juegan los cuatro aminoácidos en la proteína, cabe destacar la Asparragina (N), implicada en la formación de puentes de Hidrógeno y N-glicosilación; y la Alanina (A), implicada en el reconicimiento de substrato ó especificidad. El hecho de que esta región no está presente en todos los organismos analizados nos impide afirmar que la función de estos aminoácidos sea la comentada.
- Treonina (posición 49): sólo se observa en las tres cepas de M. tuberculosis (H37Rv, CDC1551, T92).
- Treonina (posición 57): se encuentra en las tres cepas de M. tuberculosis, en M. leprae y en M. abscessus .
- Treonina (posición 66): aparece en las tres cepas de M. tuberculosis , al igual que en la primera.
- Treonina (posición 316): está únicamente en dos de las cepas de M. tuberculosis , H37Rv y CDC1551.
Las Treoninas situadas en las posiciones 49, 57 y 66, se encuentran en las tres estirpes de M. tuberculosis , por lo que es posible afirmar que estos sitios de glicosilación realmente existen en ellas. Sin embargo la Treonina 316 no sigue un patrón característico, ya que no está ni en todas las cepas de M. tuberculosis , ni en todos los organismos, por lo que no podemos tener la certeza de que sea un sitio de glicosilación fundamental en la proteína. Cabe mencionar que los aminoácidos que se glicosilan pueden ser tanto serina como treonina, es por ello que si apareciese una serina se mantendría la opción de glicosilación, pero en nuestro caso, observamos que hay un gaps.
Cabe mencionar que todos estos resultados obtenidos en el alinemaiento coinciden con los obtenidos en pasos anteriores en la ficha del UniProtKB.
Una vez realizado y estudiado el alineamiento múltiple de proteínas, llevaremos a cabo un análisis de las secuencias CDS de Apa , pero este caso, no se estudiará las características posicionales. Para ello, utilizamos igual que en el caso anterior, el programa ClustalX e introducimos las secuencias de CDS de los 13 organismos homólogos de Apa que estamos estudiando. Realizamos el alineamiento de estas secuencias, y se generan dos ficheros con las extensión ".aln" y ".dnd" como en el caso del alineamiento de aminoácidos.
A continuación abrimos el fichero con la extensión ".aln" con el programa BioEdit, para poder analizar la conservación de las secuencias CDS de Apa y destacar algunos dominios conservados.
En este fichero podemos observar 2 regiones que presentan una gran cantidad de nucleótidos conservados, 560-642 y 700-790 y otras dos regiones más pequeñas donde también se aprecian ciertos bases conservadas, 430-475 y 490-520. Por otro lado, la zona inicial y terminal principalmente estan compuestas de gaps, por lo que podemos considerar inserciones o delecciones significativas, siempre y cuando estas sucedan en un múltiplo de tres, lo que hace referencia a la adicción o supresión de aminoácidos. Esto puede comprobarse en el alineamiento de aminoácidos, si las zonas con gaps del alineamiento de CDS concide con supresiones o adiciones de aminoácidos en estas regiones. Sin embargo, las regiones con gaps en el alinemiento de CDS que no se den en múltiplo de tres, se corresponden probablemente con errores en el alineamiento debido a la diferencia de longitud entre las distintas secuencias. Bien
Al visualizar este fichero podemos deducir que, al igual que en el caso del alineamiento de aminoácidos, la región más conservada de la proteína Apa es la región central, estando los extremos muy poco conservados.
Igual con las repeticiones.
El fichero generado con extensión ".dnd" nos servirá además para constrtuir los árboles filogenéticos, para realizar un análisis filogenético.
4 . 2. ANÁLISIS FLOGENÉTICO
4.2.1. Árboles Filogenéticos
Al abrir los ficheros ".dnd" con el programa TreeView, se construyen los árboles filogenéticos a partir de los datos del alineamiento de aminoácidos y CDS. Con este programa podemos construir tres tipos distintos de árboles:
- Arbol filogenético sin raíz : muestran la topología de las relaciones entre un conjunto de individuos pero no un patrón de descendencia o un orden cronológico.
- Cladograma : diagrama que permite representar el parentesco evolutivo entre las especies. La base del árbol representa un antepasado común para los organismos o grupos ubicados al final de las ramas .
- Filograma: muestra relaciones genealógicas entre organismos. Difiere del cladograma en que las ramas se dibujan proporcionales a la cantidad de cambio evolutivo, por lo que permite ver las distancias relativas entre secuencias.
Además, para enraizar bien el árbol y ordenar adecuadamente las secuencias, definimos una especie externa, la cual debería ser la secuencia más alejada evolutivamente del resto. En nuestro caso, hemos tomado Mycobacterium abscessus , ya que según los resultados del BLASTp (e-value, identidad y similitud) y del alineamiento (menos regiones conservadas), pensamos que es el organismos más alejado evolutivamente.
Los árboles obtenidos con el programa TreeView son los siguientes:
ÁRBOLES --> ALINEAMIENTOS PEPTÍDICOS
Figura 5. Árbol filogenético sin raíz obtenido mediante el alineamiento de la proteína Apa.
Figura 6. Cladograma obtenido mediante el alineamiento de la proteína Apa.
Figura 7. Filograma obtenido mediante el alineamiento de la proteína Apa. Con el filograma hubiera sido suficiente
ÁRBOLES --> ALINEAMIENTOS NUCLEOTÍDICOS
Figura 8. Árbol filogenético sin raíz obtenido mediante el alineamiento de la CDS de Apa.
Figura 9. Cladograma obtenido mediante el alineamiento de la CDS de Apa.
Figura 10. Filograma obtenido mediante el alineamiento de la CDS de Apa.
Si observamos ambos grupos de árboles, peptídicos y aminoacídicos, podemos apreciar grandes diferencias entre ellos. A grandes rasgos podemos mencionar que en ambos casos se diferencian principalmente tres grupos, pero formado cada uno de ellos por diferentes organismos. En los árboles obtenidos mediante alineamiento de la proteína Apa, se aprecian tres grupos formados por: M. abscessus; M. smegmatis, M. gilvum y M. vanbaalenii; y un tercer grupo que engloba al resto. Sin embargo, en el caso del alinemiento de la CDS se distinguen los grupos: M. abscessus; M. tuberculosis H37Rv, T92 y CDC 1551, M. kansasii y M. marinum; y otro grupo formado por resto de organismos. También cabe destacar que los filogramas, donde se representan las distancias evolutivas entre los organismos, son los diagramas en los cuales encontramos más diferencias. En el filograma de CDS, se aprecian mayores distancias evolutivas que en el filograma obtenido por el alineamiento de la secuencia proteica. Estas diferencias podrían explicarse por la degeneración del código genético, ya que mutaciones ocasionadas en las bases nucleotídicas pueden no afectar a la secuencia proteíca. También puede ser debido a las distintas isoformas tomadas al coger los CDS. De esta manera, la secuencia de la proteína se encuentra más conservada y la distancia evolutiva entre los distintos organismos será menor en este caso. E incluso podría deberse a que no se ha conseguido un buen alineamiento de CDSs (no por vuestra culpa, claro) debido a la baja similitud que hay en determinadas zonas.
4.2.2. Matrices de Distancia
Otra forma de comparar las relaciones evolutivas entre las secuencias de las prácticas anteriores, es generar una matriz de distancia, donde podemos ver el porcentaje de identidad que existe entre cada par de secuencias. Para ello abrimos el fichero ".aln" desde el programa ClustalX, y se creará un fichero con extensión ".pim", el cual contendrá la matriz de distancia.
Matriz de distancia peptídica
Al observar esta matriz, vemos que las tres cepas de M. tuberculosis presentan una identidad del 100%. Estos resultados concuerdan con el árbol filogenéticos obtenido con ClustalX, indicándonos que han seguido el mismo camino evolutivo. Por otra parte, M. gilvum y M. banvaalenii poseen una identidad del 85 %, con lo que deducimos que están muy cercanos evolutivamente. Además, M. ulcerans, M. marinum y M. Kansasii muestran una identidad del 79 %. Por último, podemos concluir que M. abscessus es el organismo más alejado evolutivamente del resto, ya que presenta una identidad muy baja en todos los casos.
Matriz de distancia nucleotídica
En primer lugar, observamos que de nuevo las tres cepas de M. tuberculosis presentan un 100 % de identidad. Además, estas tres cepas frente a M. kansasii muestran una identidad del 78 %. Por otro lado, M.avium y M. intracellulare tienen una identidad del 87 %; y M. kansasii y M. marinum poseen un 87 % de identidad. Finlamente, volvemos a ver que M. abscessus presenta identidades muy bajas respecto al resto de organismos.
Comparando ambas tablas, observamos que el porcentaje de identidad de proteínas es mayor que las identidades de CDS (se verifica el resultado obtenido en los árboles filogneéticos) en todos los organismos. Estas diferencias, son debidas principalmente a la degeneración del código genético (mutaciones silenciosas) o también a la posibilidad de tomar distintas isoformas al coger los CDS, como ya se ha comentado anteriormente.
5. BÚSQUEDA DE DOMINIOS Y MOTIVOS
Tras introducir la secuencia aminoacídica de nuestra proteína en la base de datos Pfam , se obtiene el siguiente resultado:
Como se puede apreciar, nuestra proteína presenta un único dominio perteneciente a la familia FAP (PF07174). Este dominio abarca casi la totalidad de su secuencia.
- Sumario : Esta familia contiene proteínas bacterianas de unión a fibronectina. Los miembros de esta familia son ricos en alanina y prolina, presentan una longitud de unos 300 aminoácidos y parecen ser únicos del género Mycobacterium. Estas proteínas contienen un motivo de unión a fibronectina, el cual permite a mycobacterium adherirse a la fibronectina de la matriz extracelular.
- Organización de dominios: existen 20 secuencias con la arquitectura de esta familia de dominios, pertenecientes a organismos ya mencionados anteriormente ( M. gilvum, M. avium, M. leprae….). Podemos observar que este dominio siempre aparece solo.
- Alineamiento múltiple: es posible llevar a cabo dos alineamientos, uno con pocas secuencias (secuencias semilla o “seed”) y otro con todas las proteínas conocidas de la familia (alineamiento completo o “full”). En el primero se comparan 8 secuencias, mientras que en el segundo se comparan las 20 secuencias totales. Puesto que 20 no son muchas secuencias, nos centraremos en el alineamiento “full” . Este alineamiento debe ser similar al generado en el apartado anterior pero más completo, al incluir todas las proteínas conocidas de la familia. De modo que, podremos comparar los alineamientos múltiples encontrados, con los obtenidos anteriormente y comprobar si los aminoácidos, motivos y dominios encontrados como conservados siguen manteniendo esa propiedad en la familia completa.
Tras realizar el alineamiento, los resultados obtenidos se pueden estudiar en el siguiente link:
O bien, si quiere visualizarlo en formato HTML; pinche sobre este otro link:
En este alineamiento se puede observar una región inicial poco conservada en la que aparecen numerosos gaps. Desde la posición 215 a 300 aproximadamente, correspondiente a la imagen superior, existe una alta conservación de esta secuencia en toda la familia. También, se puede apreciar otra zona bastante conservada que abarca desde la posición 310 a la 350. Podríamos considerarlas como una gran región conservada.
Estos resultados concuerdan con los obtenidos con el ClustalX, a excepción de que anteriormente consideramos que la región conservada abarcaba desde la posición 170-350, puesto que aparecían un número muy reducido de gaps. El hecho de que existan diferencias entre este alineamiento y el realizado en la práctica anterior se debe a que en la base de datos Pfam también se emplea ClustalW como herramienta de alineamiento, por lo que Pfam lleva a cabo un alineamiento con un mayor número de secuencias que en la práctica anterior.
- HMM logo: este gráfico nos permite estudiar que residuos están más conservados en el grueso de proteínas que componen esta familia.
En este tipo de gráfico es importante la posición en cuanto a la altura de los diferentes aminoácidos, ya que posiciones más altas se corresponden con mayor conservación de secuencia y proporcionará mayor información. Además, la altura de cada residuo indica su frecuencia en esa posición.
En la imagen superior, se puede observar una región donde la frecuencia de que aparezca una prolina es muy elevada. Además, como es el aminoácido que presenta la posición superior, podemos mencionar con bastante certeza de que este aminoácido se encuentra conservado en muchos de los organismos estudiados. Para afianzar más esta hipótesis, hemos analizado estas posiciones en el alineamiento obtenido con ClustalX, comprobándose que la mayoria de las prolinas aquí encontradas, aparecen en las secuencias aminoacídicas de la mayoría de los organismos del género Mycobacterium que estamos estudiando. Este hallazgo, nos lleva a pensar que estos residuos de prolinas presentan un papel importante en la función de la proteína Apa, probablemente siendo los responsables de giros en la estructura 3D. Bien
Para poder visualizar el gráfico completo, pincha sobre el siguiente link: HMM logo
- Árboles : A continuación se muestran los árboles filogenéticos obtenidos por el algoritmo UPGMA desde el alineamiento múltiple de Pfam.
Los nombres que aparecen en estos árboles, hacen referencia a los Identificadores y Accesion number de UniProt. Conociendo el organismo al que corresponde cada código, podemos comparar estos árboles con los obtenidos mediante el alineamiento múltiple utilizando el programa ClustalX y TreeView. Sin embargo, esta comparación no es fácil, ya que los organismos que aparecen en los árboles realizados con Pfam, tanto "seed" como "full" son distintos a los de los árboles realizados en el apartado anterior. Por este motivo, comentaremos sus principales diferencias, teniendo una visión global de los dos tipos de árboles:
- Si comparamos los árboles aminoacídicos generados con el alineamiento múltiple con ClustalX con el árbol "seed" de Pfam, podemos ver que las relaciones filogeneticas que se establecen no son idénticas. En el primer caso, se observan dos ramas principales, mientras que el árbol generado con Pfam se divide inicialmente en tres grupos. Sin embargo, un aspecto en común de ambos tipos de árboles, es que presentan tres grupos de organismos diferenciados claramente; aunque los organismos que componen esos grupos son distintos. Las diferencias que se observan, se deben en gran medida a que los organismos empleados para realizar el árbol son distintos en los dos casos. Cabe mencionar que Pfam contiene una amplia colección de alineamientos múltiples de secuencias cubriendo buena parte de dominios proteicos y familias comunes, por lo que el resultado de este programa es quizás más fiable que el obtenido con ClustalX. .
- El árbol "full" generado con Pfam, esta compuesto por 20 organismos del género Mycobacterium, y es muy dificil comparar con el árbol generado en la práctica anterior, debido a la diferencia en cuanto a número de organismos que lo componen.
Los apartados de interacción y estructura no aparecen en esta base de datos.
Tras la búsqueda en Pfam, procedimos a contrastar los resultados obtenidos utilizando la base de datos integrada InterPro, haciendo uso de la herramienta de búsqueda InterProScan.
Los motivos encontrados en las bases de datos SignalP y TMHMM se corresponden a un péptido señal y una región transmembrana. Puesto que no obtuvimos una ficha de Prosite (PS), procederemos a realizar un estudio usando dicha base de datos para enriquecer nuestros datos y conocimientos sobre la proteína Apa.
Haciendo uso de la base de datos PROSITE buscaremos pequeños motivos de secuencia. Estos motivos son de alta ocurrencia, es decir, pueden aparecer por simple azar. De modo que, debemos comprobar que estas regiones se encuentran conservadas en los distintos organismos (miramos el alineamiento). Si están conservadas, es posible que estos dominios posean la función esperada, pero si la región no está conservada, los motivos aparecen por simple azar.
Los resultados obtenidos son los siguientes:
Figura 17: Resultados obtenidos con PROSITE
En primer lugar, obtenemos una región rica en alanina situada entre las posiciones 16 y 97. Al buscar esta región en el BioEdit, comprobamos que en la mayoría de los organismos se conserva. De igual forma, observamos que existen dos regiones ricas en prolina, encontrándose la primera de ellas entre las posiciones 41-110 y la segunda, entre la 285-324. Al estudiar en el BioEdit estas posiciones, vemos que se conservan sólo en las tres cepas de M. tuberculosis.
A continuación, pasaremos a analizar los posibles motivos que presenta nuestra proteína:
7-10: NLTR
161-164: NDTR
Debemos mirar en BioEdit, si estas regiones aparecen en la secuencia de nuestro organismo original en la posición indicada. Observamos que:
- La secuencia NLTR sólo se encuentra en las tres cepas de M. tuberculosis
- La secuencia NDTR se encuentra en todos excepto en los organismos M. gilvum, M. vanbaalenii, M. smegmatis y M. abscessus.
Ahora, pulsamos en el enlace del organismo (PS00001), donde podremos ver el “Consensum pattern”: N - {P} - [ST] - {P}
Esta fórmula significa que para que exista este sitio de n-glicosilación, el primer aminoácido tiene que ser forzosamente N, después cualquiera menos una P, después S o T, y finalmente cualquiera menos una P. N es el sitio de glicosilación.
De modo que, si volvemos a comprobar los organismos teniendo en cuenta esto último, observamos que:
- La secuencia NLTR sigue apareciendo únicamente en las tres cepas de M. tuberculosis
- La secuencia NDTR se encuentra en todos excepto en el organismo M. abscessus.
El hecho de que en el segundo caso, se de en todos los organismos excepto en uno, nos lleva a concluir que este sitio de N-glicosilación probablemente exista. En cambio, podemos afirmar que la secuencia NLTR no constituye un sitio de n-glicosilación.
Conlusiones:
- El sitio de N-glicosilación es específico de la secuencia consenso Asn-Xaa-Ser/Thr.
- Cabe señalar que la presencia del consenso tripéptido no es suficiente para concluir que un residuo de asparragina sea glicosilado, debido al hecho de que el plegamiento de la proteína juega un papel importante en la regulación de la N-glicosilación.
- Se ha mostrado que la presencia de prolina entre Asn y Ser/Thr inhibe la N-glicosilación. Esto se ha confirmado mediante recientes análisis de los sitios de n-glicosilación, que muestran que alrededor del 50% de los sitios que tienen una prolina C-terminal a Ser/Thr no son glicolisados.
9-11: TrR 282-284: SiR
De nuevo, observamos en el BioEdit que:
- La secuencia TrR se encuentra en las tres cepas de M. tuberculosis y M. avium.
- La secuencia SiR aparece en todos los organismos excepto en M. intracellulare y M. avium.
Teniendo en cuenta el “ Concensum pattern”: [ST] - x - [RK]
Para considerar la existencia de este sitio, se debe cumplir que el primer aminoácido sea S ó T, el segundo cualquiera, y el tercero R ó K.
Volvemos a estudiar el alineamiento obtenido mediante BioEdit y vemos que:
- La secuencia TrR se encuentra en los organismos mencionados anteriormente y además en M. leprae.
- La secuencia SiR es una región de elevada homología, ya que en todos, excepto en los organismos M. intracellulare y M. avium, se encuentra exactamente esta región.
El hecho de que la secuencia SiR no se encuentre en todos los organismos, nos lleva a pensar que esta secuencia no se corresponde realmente con un sitio de fosforilación de la Kinasa C.
Conlusiones:
- In vivo, la proteína kinasa C muestra una preferencia por la fosforilación de los residuos de serina ó treonina encontrados cerca de un residuo básico C-terminal. La presencia de residuos básicos adicionales en N-o C-terminal del aa aminoácido específico aumenta la Vmax y la Km de la reacción de fosforilación.
146-149: TtgD222-225: SyyE
Mirando en BioEdit:
- La secuencia TtgD se encuentra sólo en las tres cepas de M. tuberculosis.
- La secuencia SyyE es una región de completa similitud, ya que se encuentra en todos los organismos.
Teniendo en cuenta el “ Concensum pattern”: [ST] - x(2) - [DE]
Significa que el primer aminoácido puede ser S ó T, el segundo y el tercero cualquiera, y el cuarto D ó E. El sitio de fosforilación se corresponde a los aminoácidos S ó T.
De nuevo observamos en BioEdit que:
- La secuencia TtgD aparece también en M. smegmatis.
Puesto que la secuencia SyyE se encuentra en todos los organismos, podemos afirmar que este sitio es realemente un sitio de fosforilación. En cambio, la secuencia TtgD podría ser fruto del azar debido a su baja frecuencia.
Conlusiones:
- La Caseína Kinasa II es una proteína serina/treonina kinasa cuya actividad es independiente de nucleótidos cíclicos y calcio. Esta proteína fosforila a numerosas proteínas diferentes.
- La especificidad de sustrato de esta enzima es :
1. Bajo condiciones comparables, la serina es favorecida sobre la treonina.
2. Para incrementar el ratio de fosforilación, debe haber residuos acídicos adicionales en las posiciones +1, +2, +4 y +5, ya que la mayoría de los sustratos fisiológicos tienen al menos un residuo acídico en estas posiciones.
3. El ratio de fosforilación es disminuido por la presencia de un residuo básico en el extremo N-terminal del sitio aceptor.
190-195: GSdmGE
216-221: GVsgSA
Mirando en BioEdit:
- La secuencia GSdmGE se encuentra en todos los organismos excepto en los organismos M. gilvum, M. vanbaalenii, M. smegmatis y M. abscessus.
- La secuencia GVsgSA aparece en las tres cepas de M.tuberculosis y en M. kansasii.
Teniendo en cuenta el “ Concensum pattern”: G - {EDRKHPFYW} - x(2) - [STAGCN] - {P}
Significa que el primer aminoácido es G, el segundo cualquiera excepto {}, el tercero y el cuarto cualquiera, el quinto alguno de los citados, y el sexto cualquiera excepto P. El sitio de N-miristoilación se corresponde al aminoácido G.
Si miramos en Bioedit:
- La secuencia GSdmGE: se cumple lo explicado anteriormente.
- La secuencia GVsgSA aparece en todos los organismos excepto en M. gilvum, M. vanbaalenii y M. smegmatis.
Dado que en ambos casos, las secuencias no se encuentran en toda la familia, podemos concluir que este sitio de miristoilación no exista y, por tanto, sea fruto del azar.
Conlusiones:
Un número apreciable de proteínas procariotas son acetiladas por la adición covalente de miristato, un ácido graso saturado de 14 carbonos, a su residuo N-terminal. La especificidad de secuencia de la enzima responsable de esta modificación, denominada meristoil-CoA (proteína transferasa N-meristoil), ha sido derivada de la secuencia de proteínas N-miristoiladas conocidas y de estudios usando péptidos sintéticos. Se deduce lo siguiente:
1. El residuo N-terminal deber ser una glicina.
2. En la posición 2, los residuos pueden variar siempre y cuando no sean grandes residuos hidrofóbicos o prolina.
3. En las posiciones 3 y 4, todos los residuos son permitidos.
4. En la posición 5, pueden aparecer una pequeña variedad de residuos (Ala, Ser, Thr, Cys, Asn and Gly), siendo la serina la más favorecida.
5. En la posición 6, aparecerá cualquier residuo excepto la prolina.
Vaya curro! Muy bien estudiado.
6. PREDICCIÓN DE LA ESTRUCTURA 3D
En primer lugar, debemos comprobar si la proteína Apa tiene una estructura conocida. Para ello, buscamos en la ficha de la proteína de UniProt, en el campo “cross referente” un enlace a la base de datos PDB (base de datos de estructuras 3D de moléculas biológicas), o en su defecto un enlace a HSSP (base de datos de homología de estructuras 3D). Al entrar en la ficha de nuestra proteína, comprobamos que no tiene enlace para estas bases de datos de predicción de estructura. Por este motivo, para dilucidar la estructura de Apa tendremos que utilizar otro recurso: Swiss-Model.
Para ello, seleccionamos el método "First Approach mode" en el menú "Modeling requests" de Swiss-Model, pegamos la secuencia de aminoácidos de Apa de M. tuberculosis. Mediante este método, no hemos obtenido ningún resultado, por lo que procedemos a realizar un análisis manual mediante "Alignment Interface" del Swiss-Model. Para ello, usamos el BLAST del EBI y obtenemos el siguiente alineamiento:
>apa
PAANAPDAGPPQRWFVVWLG
>2DK7A
PVATAPIPGTP--WCVVWTG
Cabe mencionar que el e-value de este alineamiento es mayor que 1, por lo que probablemente el modelo que hemos obtenido no sea muy bueno.
A continuación, introducimos esta secuencia en "Alignment Interface", obteniéndose la siguiente estructura: Estructura proteína
Faltan datos sobre los resultados SWISS-MODEL.
En el gráfico Anolea, resultado que obtenemos de la predicción de la estructura con Swiss-Model, podemos observar cuáles son las zonas favorablemente energéticas, energía baja (color verde), y las desfavorablemente energéticas, energía alta (color rojo). De esta forma, podemos ver que una de las zonas de alta energía se corresponde con el giro de la estructura de la proteína (Glicina-Prolina-Prolina).
Seguidamente, visualizaremos la estructura obtenida con el programa RasMol:
Figura 18: Estructura de la proteína Apa visualizada con RasMol.
A continuación, buscamos en la ficha UniProt la región obtenida en el alineamiento, con el fin de poder determinar a qué posiciones se corresponden los 20 aminoácidos que constituyen la estructura obtenida de la proteína. Encontramos que esta cadena está situada en las posiciones 246 (color morado), que se corresponde con el aminoácido prolina; y 265 (color amarillo), que se corresponde con el aminoácido glicina. Muy bien
La estrucutra obtenida son dos láminas plegadas beta que se caracterizan por una disposición antiparalela, conectadas lateralmente por puentes de hidrógeno. En nuestro caso, el aminoácido localizado en la posición 249 (cuarto aminoácido de la cadena, resaltado de color naranja) se corresponde con una asparragina, aminoácido implicado en la formación de puentes de hidrógeno, por lo que podemos llegar a pensar que en este punto de la estructura se de un enlace de este tipo. Además, podemos observar en la figura (también resaltado de color naranja) que justo en el giro de la estructura protéica aparecen dos aminoácidos prolina, situados en las posiciones 255 y 256 de la proteína; y un aminoácido glicina, en la posición 254. Ambos aminoácidos suelen estar presentes en los giros estructurales, y en este caso se corrobora la teoría.
Por otro lado, hemos procedido a estudiar los resultados obtenidos en el alineamiento múltiple y comprobar si los residuos conservados se hallan en esta región de estudio. De todos los aminoácidos que se conservaban en todas las especies en la región central, sólo los siguientes (color verde en la figura) aparecen en esta cadena de 20 aminoácidos: Fenilalanina (posición 260), Valina (posición 262), Triptófano (263), Leucina (264) y Glicina (265).
Para finalizar con el estudio de la estructura hemos analizado las regiones de interés (regiones repetidas, secuencia conflicto, sitios de fosforilación, sitios de miristoilación...) encontradas en los apartados anteriores, observando que ninguna de ellas está presente en la cadena obtenida.
Para concluir, procedemos a buscar en la base de datos CATH. Pero, como hemos visto, nuestra proteína no presenta un buen modelo de estructura. El hecho de que tanto nuestra proteína, como la proteína homóloga a la nuestra encontrada anteriormente carezcan de ficha PDB, nos impiden continuar con el análisis de la estructura mediante la base de datos CATH.
7. ANÁLISIS DE EXPRESIÓN GÉNICA
Finalmente vamos a analizar experimentos de microarrays de expresión diferencial realizados sobre nuestro gen mediante el buscador ArrayExpress.
En primer lugar, realizamos la búsqueda con el nombre completo del gen "apa,modD,Rv1860,MT1908,MTCY359.13", pero no obtuvimos resultados. Por ello, procedimos a probar con el nombre “apa”, pero tampoco obtuvimos ningún resultado. Por último, probamos a introducir el dominio FAP, implicado en la adhesión a la matriz extracelular de la célula huésped. Pero desgraciadamente no conseguimos resultados satisfactorios, de modo que no podemos llevar a cabo este estudio.
Muy bien, con algunos detalles