1. BÚSQUEDA EN BASES DE DATOS MOLECULARES


1.1. UNIPROTKB uniprot.gif

Consiste en una base de datos universal de proteínas creada por la combinación de Swiss-Prot, TrEMBL y PIR.
Swiss-Prot es una base de datos de secuencias de proteínas que proporciona anotaciones manuales revisadas de alta calidad, incluyendo descripciones de la función de la proteína y de la estructura de sus dominios, modificaciones post-traduccionales, sitios de unión a ligandos, entre otras características. TrEMBL constituye un suplemento de Swiss-Prot con anotaciones por computador, aunque no revisadas, que permite el acceso a datos de secuencias de los proyectos genoma.



  • En primer lugar entramos en el portal web de la base de datos UniProt y en su formulario de búsqueda pulsamos sobre "Fields", apareciéndonos el término "Term" donde introduciremos el nombre completo de nuestra proteína "Gene name". Tras pulsar "search", obtenemos la página de resultados donde debemos comprobar que el nombre de la proteína y el organismo que aparecen se corresponden con el nombre y organismo de estudio. Un aspecto a tener en cuenta a la hora de seleccionar la proteína es que la estrella que aparece en la columna "Status" es amarilla (esto significa que la ficha está revisada manualmente y almacenada en Swiss-Prot). A continuación pulsamos sobre su "Accession number", dando como resultado la ficha completa de la proteína, donde podremos conocer todo sobre dicha proteína, desde sus características más elementales, hasta su aplicación biotecnológica y bibliografía. Para poder obtener la secuencia aminoacídica en formato FASTA, pulsamos sobre "FASTA". Finalmente, para la localización de homólogos de esta secuencia en otros organismos, retrocedemos a la página de resultados, localizamos otras proteínas, y repetimos los pasos anteriores. Una vez guardadas todas las secuencias de aminoácidos en un block obtenemos un fichero de texto en formato multi-FASTA, compuesto por cuatro secuencias: M. tuberculosis, M. bovis, M. avium y M. leprae.

  • Por otro lado usaremos la base de datos UniProt para enlazar con las correspondientes secuencias de ADN. Una vez dentro de la ficha de la proteína de estudio, nos dirigimos al campo "Cross-references" de UniProt, y en el apartado "Sequence databases" del mismo pulsamos sobre un identificador de alguna de las bases de datos. Podemos buscar en cualquiera de las 3 bases de datos de referencia, pero es recomendable entrar en GenBank para facilitar el trabajo de recuperar las secuencias en formato FASTA. Si pulsando sobre el apartado CDS del campo "Features" y a continuación sobre "FASTA" obtenemos finalmente la secuencia ORF de nuestro gen. Estos mismos pasos los llevamos a cabo con los homólogos que hemos seleccionado en el paso anterior, creando otro fichero multi-FASTA.

1.2. SRS SRS.jpg

El sistema SRS es una herramienta web de búsqueda que permite consultar las principales bases de datos bioinformáticas. Una vez dentro de la página principal, seleccionamos "Library Page" y marcamos las opciones UniProtKB y UniProt/Swiss-Prot, indicando al sistema que utilice estas bases de datos. A continuación pulsamos sobre "Query Form" e introducimos el Gene Name (apa) y el Organism Name (Mycobacterium tuberculosis). Como resultado obtenemos un fichero en formato multi-FASTA en el que aparecen todas las secuencias aminoacídicas que el sistema ha encontrado con el nombre apa.
Si no lo habéis usado, no era necesario incluirlo.


2. BÚSQUEDA DE SIMILITUD



2.1. BLAST NCBI.JPG

Basic Local Alignment Search Tool es un programa informático de alineamiento de secuencias de ADN (es más bien un algoritmo implementado en una herramienta bioinformática) y de proteínas de tipo local. El programa compara una secuencia problema con una gran cantidad de secuencias que se encuentran en una base de datos, con la finalidad de encontrar genes homólogos.

El programa se basa en un algoritmo que busca secuencias en la base de datos que tienen mayor parecido a la secuencia problema. Un aspecto a resaltar es que BLAST no nos puede garantizar que ha encontrado la solución correcta ya que emplea un algoritmo heurístico. Por otro lado, la puntuación del BLAST depende del largo de la secuencia, una secuencia muy corta tendrá una puntuación menor que una grande simplemente por la cantidad de caracteres que tiene. Así que siempre se debe interpretar la puntuación con respecto al largo de la secuencia.
Esto no es muy correcto: simplemente hay que mirar el e-value, que no depende de la longitud.

El método de búsqueda de similitud que se ha seguido es la realización de un BLASTp (Basic Local Alignment Search Tool de proteínas), un BLAST con gaps que compara una secuencia de aminoácidos contra una base de datos del mismo tipo. Normalmente usa la matriz BLOSUM o PAM para realizar los alineamientos. En este caso, las matrices de intercambio empleadas son BLOSUM (BLOcks of Amino Acid SUbstitution Matrix), las cuales utilizan diferentes bases de datos de alineamientos y se nombran con números que hacen referencia al grado de exigencia al asignar los resultados del alineamiento como positivos. Las BLOSUM seguidas de un número alto están diseñadas para comparar secuencias cercanas filogenéticamente, mientras que las BLOSUM con número bajo están diseñadas para comparar secuencias relacionadas de forma distante. BLOSUM 62 es la matriz calculada usando las sustituciones observadas entre proteínas que tienen, como mínimo, el 62% de identidad en la secuencia, y se ha convertido en el estándar de la mayoría de los programas que utilizan este tipo de matrices. Además, existen los grados de identididad 80 y 45 para llevar a cabo alineamientos locales más o menos restrictivos.

BLAST es capaz de calcular la significación de sus resultados, mediante los parámetros p-value y e-value. Aquellas secuencias que presenten un valor de p-value y e-value significativos, serán considerados homólogos. En concreto, utilizamos el valor de e-value como umbral de corte. El e-value o “expectation value” es una medida estadística del número de emparejamientos esperados por azar en una base de datos de tamaño y composición igual a la utilizada. A menor e- value, más significativo será el resultado. Este valor depende del tamaño de la base de datos; para bases de datos muy pequeñas, e-valores altos son más significativos que para bases de datos muy grandes. En nuestro caso, tomaremos como posibles homólogos aquellas proteínas cuyo valor de e-value sea inferior o igual a 0,02. Ahora sí.

BLAST es la herramienta más usada para la anotación y predicción funcional de genes o secuencias proteicas gracias a las caracteristicas que lo definen: flexiibilidad, poder y fiabilidad.




3. ANÁLISIS DE SECUENCIAS NO CODIFICANTES MEDIANTE
MATRICES DE PUNTOS




En esta práctica tomaremos la región 5' no traducida de 4 especies distintas, las compararemos por medio dematrices de puntos, y comprobaremos las regiones conservadas encontradas.

3.1. UNIPROTKB
uniprot.gif

En primer lugar obtendremos las regiones no codificantes, para lo que debemos dirigirnos a la ficha UniProt de nuestra proteína y, en el campo de referencias cruzadas a otras bases de datos, buscar el subapartado "Genome annotation databases". Una vez aquí entraremos en el enlace de la base de datos GeneID ó Ensembl. El primero de ellos es la base de datos de genes del NCBI; y el segundo es un proyecto de investigación bioinformática que trata de desarrollar un sistema de software que produzca y mantenga anotaciones automáticas de genomas eucariotas.

3.2. BIOEDIT Bioedit.JPG

Se trata de un programa empleado para la realización de matrices de puntos que nos permitan analizar regiones conservadas de las regiones traducidas. Para ello se utiliza su herramienta Dot Plot, también conocida como gráfico de puntos, con la que abriremos el fichero multi-FASTA que contiene las cuatro secuencias no codificantes obtenidas en el apartado anterior. El tamaño de la ventana que se usará será de 15 y la identidad mínima de 5 (lo que significa que por cada fragmento de 15 nucleótidos puede haber hasta 5 desapareamientos), con lo que se evitarán tanto coincidencias al azar como diagonales largas (regiones amplias de alta identidad) sin información relevante.


El programa BioEdit también es utilizado para la edición de alineamientos múltiples y análisis de secuencias, permitiéndonos una mejor visualización de las posiciones de cada aminoácido ó nucleótido en el alineamiento.

3.3. JASPARexternal image jasparlogo_beta.gif

Jaspar es una base de datos pública de sitios de unión de factores de transcripcíón representados como matrices. Esta base de datos nos permitirá comparar las regiones conservadas encontradas con secuencias de unión a factores de transcripción o reguladores de la misma, ya conocidas y almacenadas en bases de datos, estableciendo el límite de similitud en un 80%. Para ello, pincharemos sobre cada extremo de las diagonales de las matrices del apartado anterior, obtendremos las coordenadas X (posición de la primera secuenia) e Y (posición de la segunda secuencia) y así podremos extraer la secuencia correspondiente de ambas, siendo ésta la que introduciremos en la base de datos JASPAR.

Sin embargo, para nuestro análisis no emplearemos esta base de datos, ya que anteriormente hemos comprobado que las secuencias de las especies seleccionadas no contienen regiones no codificantes UTR 5'.


Ok (no hacía falta incluir JASPAR)



4. ALINEAMIENTOS MÚLTIPLES Y FILOGENIAS


4.1. CLUSTALX external image clustalx.gif

Programa que emplea el algoritmo Clustal y que nos permitirá llevar a cabo los alineamientos múltiples de las secuencias de proteínas y nucleótidos. A partir de ellos se obtendrán árboles filogenéticos correspondientes y se generarán matrices de distancia en las que se puede observar el % de identidad entre cada par de secuencias. Para ello únicamente serán necesarios los ficheros FASTA y CDS obtenidos en los apartados anteriores. Obtendremos un fichero ".aln", el cual puede ser editado tanto con el programa ClustalX, como con BioEdit; y otro fichero ".dnd", el cual utilizaremos para realizar los árboles filogenéticos.

Gracias al alineamiento de las proteínas obtenido, es posible llevar a cabo el estudio de la conservación de secuencia de las diferentes partes de interés del alineamiento, pudiendo así observar los residuos que más se conservan, y que por tanto son importantes para la función de nuestra proteína, y obtener además información sobre el origen evolutivo de la familia problema.


Otra forma de comparar las relaciones evolutivas entre las secuencias de los organismos que estamos analizando, es generar una matriz de distancia, en la que podemos ver el porcentaje de identidad que existe entre cada par de secuencias. Para ello abrimos el fichero ".aln" desde el programa ClustalX, generándose un fichero con extención ".pim", el cual contendrá la matriz de distancia.


4.2. TREEVIEW treeview.JPG

Este programa nos permite relacionar la filogenia de varias secuencias, nucleotídicas o peptídicas en forma de árbol, filograma y cladograma, por lo que lo emplearemos para realizar estudios filogenéticos.


5. BÚSQUEDA DE DOMINIOS Y MOTIVOS




Las secuencias de proteínas están compuestas por módulos de diferente complejidad. Cada módulo proteico presenta una función, localización, e implicación en un proceso biológico específico. Existen bases de datos que almacenan los módulos conocidos, ya sean dominios estructurales o motivos de pequeña secuencia. De modo que, estas bases de datos permiten búsquedas con una secuencia proteíca completa.

En este apartado, buscaremos la familia de dominios a la que pertenece nuestra secuencia de referencia y los posibles motivos aminoacídicos, con funciones asociadas, que presenta haciendo uso de una base de datos de alineamientos múltiples de dominios, denominada Pfam, y una base de datos integrada InterPro. Ambas, utilizan SWISS-PROT como fuente primaria de secuencias.


5.1. PFAM
Pfam.JPG

Es la base de datos utilizada para la búsqueda de los posibles dominios que presenta nuestra secuencia de estudio, así como conseguir los alineamientos múltiples de la familia de proteínas que contienen esos dominios. El uso de Pfam es sencillo, específico y proporciona información acerca de arquitecturas proteicas, árboles filogenéticos, estructuras 3D, dominios que interaccionan con el nuestro, etc.

Esta base de datos contiene una gran colección de dominios estructurales de familias. Cada familia está representada por varios alineamientos múltiples de secuencia codificados en forma de Modelos de Markov Ocultos (HMM), los cuales son tratamientos matemáticos basados en la estadística, que consiste en cadenas lineales de estados de emparejamiento, deleción o inserción que pretenden codificar la conservación de la secuencia en las familias alineadas.


5.2. INTERPRO
Ebi.jpg

Es una base de datos utilizada para buscar motivos y dominios de secuencia en nuestras proteínas que integra información de numerosas bases de datos de dominios, bloques, motivos, estructura, etc. En concreto, integra las bases de datos PROSITE, PRINTS, Pfam, ProDom, SMART, TIGRFAMs, PIR superfamily, SUPERFAMILY, Gene3D y Panther. Estas diferentes bases de datos, presentan distintas áreas de aplicación óptima debido a las diferentes fortalezas y debilidades de sus métodos de reconocimiento de patrones. De modo que, InterPro facilita la obtención de unos mejores resultados combinando todas sus estrategias de búsqueda. Es una herramienta muy útil a la hora de analizar la totalidad del genoma.

5.3. PROSITE
prosite.jpeg

Es una base de datos de familias de proteínas y dominios, la cual se basa en la observación de que la mayoria de proteínas diferentes se pueden agrupar en un número limitado de familias debido a las similitudes observadas en sus secuencias. Al estudiar la secuencia de proteínas de una familia, se observa como algunas regiones se han conservado mejor que otras durante la evolución. Estas regiones generalmente están implicadas en la función de la proteína y/o el mantenimiento de su estructura tridimensional. El proceso empleado en la derivación de los motivos implica la construcción de un alineamiento múltiple y la inspección manual para identificar regiones conservadas.

Prosite, es una de las bases de datos más potente y útil, puesto que presenta un mayor registro de motivos y dominios, aunque éstos sean de baja significación.



6. PREDICCIÓN DE ESTRUCTURA 3D



6.1.PDB pdblogo.JPG

PDB (Protein Data Bank)
es una base de datos de estructuras 3D de moléculas biológicas (proteínas y ácidos nucleicos) obtenidas principalmente por cristalografía de rayos X o Resonancia Magnética Nuclear. Una manera de acceder a esta base de datos, es a través de la ficha de nuestra proteína en UniProt, en el campo de referencias cruzadas. En el caso de que no aparezca el enlace a PDB, podemos usar el enlace a la base de datos HSSP, que contiene información de homología de estructuras de interés.


6.2. SWISS-MODEL swiss-model(N).JPG

El método Swiss-Model realiza una predicción de estructura 3D por homología, por lo que es necesario la secuencia aminoacídica de la proteína en cuestión. Este servidor de modelado de estructura 3D por homología, tiene tres formas de funcionar:
-
Primera aproximación ("First approach mode"): Genera el modelo basándose en un alineamiento proporcionado por el usuario.
- Interfaz de alineamiento ("Alignment interface"): Genera el modelo basado en un alineamiento de usuario.

- Modo optimización ("Project optimise mode"): Optimiza un modelo previo.

En primer lugar, seleccionamos el modo "First approach mode", en el menú "Modeling requests" de Swiss-Model, pegamos la secuencia de nuestra proteína Apa y pulsamos sobre "Submit Modelling Request". El programa realizará una búsqueda por similitud de una proteína plantilla de estructura conocida, y realizará un modelado de la estructura predicha. Si el programa encuentra una plantilla que de un buen alineamiento con la secuencia problema, se mostrará la longitud de nuestra proteína, las predicciones obtenidas, la plantilla PDB que el programa ha usado, el porcentaje de identidad del alineamiento entre la secuencia problema y la plantilla, y el e-value correspondiente.

Si por el contrario, el resultado de la predicción fuera negativo, es posible realizar un análisis manual. Para ello, se selecciona la opción "Alignment Interface'" del Swiss-Model, en el que el propio usuario busca la plantilla, por ejemplo realizando un Blast contra la base de datos PDB; y realizando el alineamiento entre la proteína de estudio y la plantilla.

6.3 RasMol RasMolbig.jpg

Este programa permite visualizar la estructura de nuestra proteína y, además marcar regiones o aminoácidos de interés con el fin de estudiar la posición espacial de los mismos. Gracias a una ventana de comandos es posible señalar estas regiones y aminoácidos de interés con distintos colores, y mediante otras herramientas podremos cambiar la orientación y y el tamaño de la imagen, así como obtener distintos dibujos de la misma.


6.4 CATH header_cath_logo.JPG

La base de datos CATH se emplea para clasificar las estructuras de las proteínas en función de sus características, requiriéndose para ello el código PDB de las mismas. Deben tenerse en cuenta cuatro niveles jerárquicos para realizar la clasificación:

  • Clase (C): Nos indica la clase de proteína según su estructura secundaria y empaquetamiento.
  • Arquitectura (A): Describe la disposición bruta de estructuras secundarias que ignora sus conectividades, como barril, rulo, bocadillo, etc
  • Topología (T): Da una descripción que engloba tanto la forma global como la conectividad de estructuras secundarias.
  • Homología (H): agrupa dominios que comparte más de un 35% de identidad de secuencia y se piensa que son homólogos, es decir, comparten un ancestro común.



7. ANÁLISIS DE EXPRESIÓN GÉNICA



7.1 ARRAY EXPRESS EXPRESS.JPG

En esta práctica vamos a hacer uso de la base de datos Array Express.

Se trata de una base de datos de EMBL, que permite llevar a cabo la búsqueda de multitud de experimentos de expresión génica mediante microarrays relacionados con un organismo concreto. La búsqueda puede ser realizada mediante dos formas distintas, a partir del nombre del gen ó a partir del proceso y función que realiza.

Muy completo y organizado