1. Introducción a los entornos de trabajo UNIX

1.17. Ejemplo práctico 1: Analizando el genoma humano

1.17.2. Descarga y exploración del genoma humano

La organización del genoma de un organismo se da en un conjunto de cromosomas. En este ejemplo, se procede a descargar la anotación sobre los cromosomas del genoma humano en su distribución hg38. Se adjunta la tabla 18 con los accesos de descarga que se van a utilizar.

Tabla 18. Páginas web del navegador genómico UCSC.

Acceso Dirección
Página principal servidor UCSC http://genome.ucsc.edu/
Página descargas (genoma data) https://hgdownload.soe.ucsc.edu/downloads.html
Página listado especies https://hgdownload.soe.ucsc.edu/goldenPath/currentGenomes/
Página acceso especie human https://hgdownload.soe.ucsc.edu/downloads.html#human
Página acceso especie human https://hgdownload.soe.ucsc.edu/goldenPath/hg38/
Página Sequence data by Chromosome https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/
Página acceso bigZips https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/

Fuente: elaboración propia.

Primeramente, se accede a la página de descargas (en inglés, downloads) del navegador genómico UCSC (https://hgdownload.soe.ucsc.edu/downloads.html).

El contenido de esta página nos muestra el listado de genomas disponibles organizado por especies. A fecha de 26 de abril de 2023 existen información sobre 108 especies.

Al hacer uso del enlace Human, entramos a la sección dedicada al genoma humano. Es importante destacar que la información correspondiente a cada genoma se actualiza con cierta frecuencia, por lo que cada mejora sustancial cuenta con un código de versión propio. En este caso, trabajaremos con la distribución conocida como hg38, la cual es la más reciente al momento de la redacción de estos materiales.

Si desde la página de acceso a la especie humana accedéis al enlace asociado a Sequence data by chromosome (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes) accederéis al listado de los ficheros comprimidos FASTA de cada uno de los cromosomas (chr*.fa.gz), a la secuencias random, que son secuencias no colocadas en los anteriores cromosomas de referencia (chr*_random), y a las secuencia chrUn_*, que son secuencias no localizadas en las que el cromosoma de referencia no ha sido determinado. En la misma fecha mencionada anteriormente, hay 456 secuencias FASTA asociadas a diferentes cromosomas.

Si desde esta última localización se accede al Parent Directory (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/), encontraréis el directorio llamado bigZips (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/), que es otro repositorio de ficheros, con distintos formatos, asociado al genoma humano. Todos los archivos están comprimidos y empaquetados para reducir el tiempo de transmisión.

El fichero hg38.chromFa.tar.gz contiene la secuencia original de los cromosomas separados en archivos independientes. Hay que descargar este fichero y se hará con el comando wget, pero solo debes descargar el fichero si tienes más de 5 Gb disponibles en el disco duro. Si tienes menos de 5 Gb libres, descarga la secuencia FASTA del cromosoma 7 desde el directorio https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/

# El comando df es el comando que se utiliza para averiguar el espacio en disco

$ df -h
Filesystem    Size     Used    Available   Use%    Mounted on

udev          959M     0       959M        0%      /dev

tmpfs         199M     1,4M    197M        1%      /run

/dev/sda5     20G      16G     2,9G        85%     /

tmpfs         991M     0       991M        0%      /dev/shm

tmpfs         5,0M     4,0K    5,0M        1%      /run/lock

tmpfs         991M     0       991M        0%      /sys/fs/cgroup

/dev/loop1    64M      64M     0           100%    /snap/core20/1852

En la máquina en la que se está trabajando solo hay disponibles 2,9 G de espacio (columna Available), por lo que en este caso solo se descarga la secuencia FASTA del cromosoma 7. Si hubiera espacio en el disco duro para descargar el fichero con toda la información, el procedimiento sería el siguiente:

$ wget https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz
--2023-04-26 13:22:55--  https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz

S'està resolent hgdownload.soe.ucsc.edu (hgdownload.soe.ucsc.edu)... 128.114.119.163

S'està connectant a hgdownload.soe.ucsc.edu (hgdownload.soe.ucsc.edu)|128.114.119.163|:443... conectat.

HTTP: s'ha enviat la petició, s'està esperant una resposta... 200 OK

Mida: 983726049 (938M) [application/x-gzip]

S'està desant a: «hg38.chromFa.tar.gz»

hg38.chromFa.tar.gz    100%[===================================>] 938,15M  7,82MB/s    in 2m 25s 

2023-04-26 13:25:22 (6,47 MB/s) - s'ha desat «hg38.chromFa.tar.gz» [983726049/983726049]

Una vez que el fichero está descargado en la máquina Gnu/Linux con la que se trabaje se debe desempaquetar y descomprimir el fichero con el objetivo de visualizar el contenido de este.

$ ls -alh hg38.chromFa.tar.gz
-rw-rw-r-- 1 student student 939M de gen.  24  2014 hg38.chromFa.tar.gz
$ tar -vzxf hg38.chromFa.tar.gz
./chroms/

./chroms/chr1.fa

./chroms/chr10.fa

./chroms/chr11.fa

./chroms/chr11_KI270721v1_random.fa

./chroms/chr12.fa

./chroms/chr13.fa

…

Aunque la calidad de la secuencia del genoma humano es aceptable, todavía se encuentra en fase de mejora. Debido a esto, es común encontrar numerosos archivos que contienen fragmentos o variantes que aún están en discusión y que no necesariamente corresponden a un cromosoma completo. Es posible visualizar el primer cromosoma en el terminal; sin embargo, en algunas partes del cromosoma, como el inicio, la secuencia de nucleótidos es desconocida y se denota con el carácter N. Además, para indicar la presencia de elementos codificados en la secuencia, se puede utilizar una combinación de letras mayúsculas y minúsculas.

$ more chr7.fa
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

…

…

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

GAATTCTACATTAGAAAAATAAACCATAGCCTCATCACAGGCACTTAAAT

ACACTGAAGCTGCCAAAACAATCTATCGTTTTGCCTACGTACTTATCAAC

TTCCTCATAGCAAACTGGGAGAAAAAAGCAATGGAATGAATAAAATGATA

GCCACAAAAATCAAGGTGGGAGAAATACTTATTATATGTCCATAAAAAAT

TTTAATTAATGCAAAGTATTAACACCAATGATTGCAGTAATACAGATCTT

ACAAATGATAGTTTTAGTCTGAACAGGACTATCCAAAAGTTAATTTTCTA

TAGTAACAGTTTTTAAATAAAATATCAATTCCTGAAACACATAAAATGGT

CCATGAGTATACAACGAGTGAAAAAAAACAAATTCAGAGCAAAGATAAAT

TAAGAAGTATCTAATATTCAAACATAGTCAAAGAGAGGGAGATTTCTGGA

TAATCACTTAAGCCCATGGTTAAACATAAATGCAAATATGTTAATGTTTA

CTGAATAACTTATCTGTGCCAAGTGGTGTATTAATGATTCATTTTTATTT

TTCACTAAATCTTTTCTCTAAAGTTGGTGTAGCCTGCAACTAAATGCAAG

AAATCTGACCTAGGACCTGCACTTCTTACCATTTTGCTCATATTTATTCC

CTGTGCATTTTTGTAACATGTATATGTTATATATATAGAAAGAGAGAGAG

GCAGAGATGGAAAGTAATTTATGGAGTTTGATGTTATGTCAGGGTAATTA

CATGATTATATAATTAACAGGTTTCTTTTTAAATCAGCTATATCAATAGA

AAAATAAATGTAGGAATCAAGAGACTCATTCTGTCCATCTGTGATAGTTC

CATCATGATACTGCATTGTCAAGTCATTGCTCCAAAAATATGGTTTAGCT

CAACactgagtgactataggaaaccagaaaccaggctgggcgctaaagat

gcaaagatgaatgagacatcatctctgccgtccaaaagcttactgtctag

tgggagagttacacacgtaaggacagtaatctaataagagctaataagtg

aaaactaagataaattaataatacaagattacagggaaggtttccaaagt

caatgaggcctcaaatgaatcttgaaagtgtgcaaggattaaccaaatga