1.17. Ejemplo práctico 1: Analizando el genoma humano
1.17.2. Descarga y exploración del genoma humano
La organización del genoma de un organismo se da en un conjunto de cromosomas. En este ejemplo, se procede a descargar la anotación sobre los cromosomas del genoma humano en su distribución hg38. Se adjunta la tabla 18 con los accesos de descarga que se van a utilizar.
Tabla 18. Páginas web del navegador genómico UCSC.
Acceso | Dirección |
Página principal servidor UCSC | http://genome.ucsc.edu/ |
Página descargas (genoma data) | https://hgdownload.soe.ucsc.edu/downloads.html |
Página listado especies | https://hgdownload.soe.ucsc.edu/goldenPath/currentGenomes/ |
Página acceso especie human | https://hgdownload.soe.ucsc.edu/downloads.html#human |
Página acceso especie human | https://hgdownload.soe.ucsc.edu/goldenPath/hg38/ |
Página Sequence data by Chromosome | https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/ |
Página acceso bigZips | https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/ |
Primeramente, se accede a la página de descargas (en inglés, downloads) del navegador genómico UCSC (https://hgdownload.soe.ucsc.edu/downloads.html).
El contenido de esta página nos muestra el listado de genomas disponibles organizado por especies. A fecha de 26 de abril de 2023 existen información sobre 108 especies.
Al hacer uso del enlace Human, entramos a la sección dedicada al genoma humano. Es importante destacar que la información correspondiente a cada genoma se actualiza con cierta frecuencia, por lo que cada mejora sustancial cuenta con un código de versión propio. En este caso, trabajaremos con la distribución conocida como hg38, la cual es la más reciente al momento de la redacción de estos materiales.
Si desde la página de acceso a la especie humana accedéis al enlace asociado a Sequence data by chromosome (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes) accederéis al listado de los ficheros comprimidos FASTA de cada uno de los cromosomas (chr*.fa.gz), a la secuencias random, que son secuencias no colocadas en los anteriores cromosomas de referencia (chr*_random), y a las secuencia chrUn_*, que son secuencias no localizadas en las que el cromosoma de referencia no ha sido determinado. En la misma fecha mencionada anteriormente, hay 456 secuencias FASTA asociadas a diferentes cromosomas.
Si desde esta última localización se accede al Parent Directory (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/), encontraréis el directorio llamado bigZips (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/), que es otro repositorio de ficheros, con distintos formatos, asociado al genoma humano. Todos los archivos están comprimidos y empaquetados para reducir el tiempo de transmisión.
El fichero hg38.chromFa.tar.gz contiene la secuencia original de los cromosomas separados en archivos independientes. Hay que descargar este fichero y se hará con el comando wget, pero solo debes descargar el fichero si tienes más de 5 Gb disponibles en el disco duro. Si tienes menos de 5 Gb libres, descarga la secuencia FASTA del cromosoma 7 desde el directorio https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/
# El comando df
es el comando que se utiliza para averiguar el espacio en disco
$ df -h
Filesystem Size Used Available Use% Mounted on udev 959M 0 959M 0% /dev tmpfs 199M 1,4M 197M 1% /run /dev/sda5 20G 16G 2,9G 85% / tmpfs 991M 0 991M 0% /dev/shm tmpfs 5,0M 4,0K 5,0M 1% /run/lock tmpfs 991M 0 991M 0% /sys/fs/cgroup /dev/loop1 64M 64M 0 100% /snap/core20/1852
En la máquina en la que se está trabajando solo hay disponibles 2,9 G de espacio (columna Available), por lo que en este caso solo se descarga la secuencia FASTA del cromosoma 7. Si hubiera espacio en el disco duro para descargar el fichero con toda la información, el procedimiento sería el siguiente:
$ wget https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz
--2023-04-26 13:22:55-- https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz S'està resolent hgdownload.soe.ucsc.edu (hgdownload.soe.ucsc.edu)... 128.114.119.163 S'està connectant a hgdownload.soe.ucsc.edu (hgdownload.soe.ucsc.edu)|128.114.119.163|:443... conectat. HTTP: s'ha enviat la petició, s'està esperant una resposta... 200 OK Mida: 983726049 (938M) [application/x-gzip] S'està desant a: «hg38.chromFa.tar.gz» hg38.chromFa.tar.gz 100%[===================================>] 938,15M 7,82MB/s in 2m 25s 2023-04-26 13:25:22 (6,47 MB/s) - s'ha desat «hg38.chromFa.tar.gz» [983726049/983726049]
Una vez que el fichero está descargado en la máquina Gnu/Linux con la que se trabaje se debe desempaquetar y descomprimir el fichero con el objetivo de visualizar el contenido de este.
$ ls -alh hg38.chromFa.tar.gz
-rw-rw-r-- 1 student student 939M de gen. 24 2014 hg38.chromFa.tar.gz
$ tar -vzxf hg38.chromFa.tar.gz
./chroms/ ./chroms/chr1.fa ./chroms/chr10.fa ./chroms/chr11.fa ./chroms/chr11_KI270721v1_random.fa ./chroms/chr12.fa ./chroms/chr13.fa …
Aunque la calidad de la secuencia del genoma humano es aceptable, todavía se encuentra en fase de mejora. Debido a esto, es común encontrar numerosos archivos que contienen fragmentos o variantes que aún están en discusión y que no necesariamente corresponden a un cromosoma completo. Es posible visualizar el primer cromosoma en el terminal; sin embargo, en algunas partes del cromosoma, como el inicio, la secuencia de nucleótidos es desconocida y se denota con el carácter N. Además, para indicar la presencia de elementos codificados en la secuencia, se puede utilizar una combinación de letras mayúsculas y minúsculas.
$ more chr7.fa
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN … … NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN GAATTCTACATTAGAAAAATAAACCATAGCCTCATCACAGGCACTTAAAT ACACTGAAGCTGCCAAAACAATCTATCGTTTTGCCTACGTACTTATCAAC TTCCTCATAGCAAACTGGGAGAAAAAAGCAATGGAATGAATAAAATGATA GCCACAAAAATCAAGGTGGGAGAAATACTTATTATATGTCCATAAAAAAT TTTAATTAATGCAAAGTATTAACACCAATGATTGCAGTAATACAGATCTT ACAAATGATAGTTTTAGTCTGAACAGGACTATCCAAAAGTTAATTTTCTA TAGTAACAGTTTTTAAATAAAATATCAATTCCTGAAACACATAAAATGGT CCATGAGTATACAACGAGTGAAAAAAAACAAATTCAGAGCAAAGATAAAT TAAGAAGTATCTAATATTCAAACATAGTCAAAGAGAGGGAGATTTCTGGA TAATCACTTAAGCCCATGGTTAAACATAAATGCAAATATGTTAATGTTTA CTGAATAACTTATCTGTGCCAAGTGGTGTATTAATGATTCATTTTTATTT TTCACTAAATCTTTTCTCTAAAGTTGGTGTAGCCTGCAACTAAATGCAAG AAATCTGACCTAGGACCTGCACTTCTTACCATTTTGCTCATATTTATTCC CTGTGCATTTTTGTAACATGTATATGTTATATATATAGAAAGAGAGAGAG GCAGAGATGGAAAGTAATTTATGGAGTTTGATGTTATGTCAGGGTAATTA CATGATTATATAATTAACAGGTTTCTTTTTAAATCAGCTATATCAATAGA AAAATAAATGTAGGAATCAAGAGACTCATTCTGTCCATCTGTGATAGTTC CATCATGATACTGCATTGTCAAGTCATTGCTCCAAAAATATGGTTTAGCT CAACactgagtgactataggaaaccagaaaccaggctgggcgctaaagat gcaaagatgaatgagacatcatctctgccgtccaaaagcttactgtctag tgggagagttacacacgtaaggacagtaatctaataagagctaataagtg aaaactaagataaattaataatacaagattacagggaaggtttccaaagt caatgaggcctcaaatgaatcttgaaagtgtgcaaggattaaccaaatga