1. Introducció als entorns de treball UNIX

1.17. Exemple pràctic 1: Analitzant el genoma humà

1.17.2. Descàrrega i exploració del genoma humà

L’organització del genoma d’un organisme es dona en un conjunt de cromosomes. En aquest exemple, es procedeix a descarregar l’anotació sobre els cromosomes del genoma humà en la seva distribució hg38. S’adjunta la taula 18 amb els accessos de descàrrega que s’utilitzaran.

Taula 18. Pàgines web del navegador genòmic UCSC.

Accés Direcció
Pàgina principal servidor UCSC http://genome.ucsc.edu/
Pàgina descàrregues (genoma data) https://hgdownload.soe.ucsc.edu/downloads.html
Pàgina llistat espècies https://hgdownload.soe.ucsc.edu/goldenPath/currentGenomes/
Pàgina accés espècie human https://hgdownload.soe.ucsc.edu/downloads.html#human
Pàgina accés espècie human https://hgdownload.soe.ucsc.edu/goldenPath/hg38/
Pàgina Sequence data by Chromosome https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/
Pàgina accés bigZips https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/

Font: elaboració pròpia.

Primerament, s’accedeix a la pàgina de descàrregues (en anglès, downloads) del navegador genòmic UCSC (https://hgdownload.soe.ucsc.edu/downloads.html).

El contingut d’aquesta pàgina ens mostra el llistat de genomes disponibles organitzat per espècies. A data de 26 d’abril de 2023 hi ha informació sobre 108 espècies.

En fer ús de l’enllaç Human, entrem a la secció dedicada al genoma humà. És important destacar que la informació corresponent a cada genoma s’actualitza amb certa freqüència, per la qual cosa cada millora substancial compta amb un codi de versió propi. En aquest cas, treballarem amb la distribució coneguda com a hg38, la qual és la més recent al moment de la redacció d’aquests materials.

Si des de la pàgina d’accés a l’espècie humana accediu a l’enllaç associat a Sequence data by chromosome (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes) accedireu al llistat dels fitxers comprimits FASTA de cadascun dels cromosomes (chr*.fa.gz), a la seqüències random, que són seqüències no col·locades en els anteriors cromosomes de referència (chr*_random), i a les seqüències chrUn_*, que són seqüències no localitzades en les quals el cromosoma de referència no ha estat determinat. En la mateixa data esmentada anteriorment, hi ha 456 seqüències FASTA associades a diferents cromosomes.

Si des d’aquesta última localització s’accedeix al Parent Directory (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/), trobareu el directori anomenat bigZips (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/), que és un altre repositori de fitxers, amb diferents formats, associat al genoma humà. Tots els arxius estan comprimits i empaquetats per reduir el temps de transmissió.

El fitxer hg38.chromFa.tar.gz conté la seqüència original dels cromosomes separats en arxius independents. Cal descarregar aquest fitxer i es farà amb l’ordre wget, però només has de descarregar el fitxer si tens més de 5 Gb disponibles al disc dur. Si tens menys de 5 Gb lliures, descarrega la seqüència FASTA del cromosoma 7 des del directori https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/

# L’ordre df és l’ordre que s’utilitza per esbrinar l’espai en disc

$ df -h
Filesystem    Size     Used    Available   Use%    Mounted on

udev          959M     0       959M        0%      /dev

tmpfs         199M     1,4M    197M        1%      /run

/dev/sda5     20G      16G     2,9G        85%     /

tmpfs         991M     0       991M        0%      /dev/shm

tmpfs         5,0M     4,0K    5,0M        1%      /run/lock

tmpfs         991M     0       991M        0%      /sys/fs/cgroup

/dev/loop1    64M      64M     0           100%    /snap/core20/1852

En la màquina en la qual s’està treballant només hi ha disponibles 2,9 G d’espai (columna Available), per la qual cosa en aquest cas només es descarrega la seqüència FASTA del cromosoma 7. Si hi hagués espai en el disc dur per descarregar el fitxer amb tota la informació, el procediment seria el següent:

$ wget https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz
--2023-04-26 13:22:55--  https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz

S'està resolent hgdownload.soe.ucsc.edu (hgdownload.soe.ucsc.edu)... 128.114.119.163

S'està connectant a hgdownload.soe.ucsc.edu (hgdownload.soe.ucsc.edu)|128.114.119.163|:443... conectat.

HTTP: s'ha enviat la petició, s'està esperant una resposta... 200 OK

Mida: 983726049 (938M) [application/x-gzip]

S'està desant a: «hg38.chromFa.tar.gz»

hg38.chromFa.tar.gz    100%[===================================>] 938,15M  7,82MB/s    in 2m 25s 

2023-04-26 13:25:22 (6,47 MB/s) - s'ha desat «hg38.chromFa.tar.gz» [983726049/983726049]

Un cop el fitxer està descarregat a la màquina Gnu/Linux amb la qual es treballi s’ha de desempaquetar i descomprimir el fitxer amb l’objectiu de visualitzar-ne el contingut.

$ ls -alh hg38.chromFa.tar.gz
 -rw-rw-r-- 1 student student 939M de gen.  24  2014 hg38.chromFa.tar.gz
 $ tar -vzxf hg38.chromFa.tar.gz
./chroms/

./chroms/chr1.fa

./chroms/chr10.fa

./chroms/chr11.fa

./chroms/chr11_KI270721v1_random.fa

./chroms/chr12.fa

./chroms/chr13.fa

…

Tot i que la qualitat de la seqüència del genoma humà és acceptable, encara es troba en fase de millora. A causa d’això, és comú trobar nombrosos arxius que contenen fragments o variants que encara estan en discussió i que no necessàriament corresponen a un cromosoma complet. És possible visualitzar el primer cromosoma al terminal; no obstant això, en algunes parts del cromosoma, com l’inici, la seqüència de nucleòtids és desconeguda i es denota amb el caràcter N. A més, per indicar la presència d’elements codificats en la seqüència, es pot utilitzar una combinació de lletres majúscules i minúscules.

$ more chr7.fa
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

…

…

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

GAATTCTACATTAGAAAAATAAACCATAGCCTCATCACAGGCACTTAAAT

ACACTGAAGCTGCCAAAACAATCTATCGTTTTGCCTACGTACTTATCAAC

TTCCTCATAGCAAACTGGGAGAAAAAAGCAATGGAATGAATAAAATGATA

GCCACAAAAATCAAGGTGGGAGAAATACTTATTATATGTCCATAAAAAAT

TTTAATTAATGCAAAGTATTAACACCAATGATTGCAGTAATACAGATCTT

ACAAATGATAGTTTTAGTCTGAACAGGACTATCCAAAAGTTAATTTTCTA

TAGTAACAGTTTTTAAATAAAATATCAATTCCTGAAACACATAAAATGGT

CCATGAGTATACAACGAGTGAAAAAAAACAAATTCAGAGCAAAGATAAAT

TAAGAAGTATCTAATATTCAAACATAGTCAAAGAGAGGGAGATTTCTGGA

TAATCACTTAAGCCCATGGTTAAACATAAATGCAAATATGTTAATGTTTA

CTGAATAACTTATCTGTGCCAAGTGGTGTATTAATGATTCATTTTTATTT

TTCACTAAATCTTTTCTCTAAAGTTGGTGTAGCCTGCAACTAAATGCAAG

AAATCTGACCTAGGACCTGCACTTCTTACCATTTTGCTCATATTTATTCC

CTGTGCATTTTTGTAACATGTATATGTTATATATATAGAAAGAGAGAGAG

GCAGAGATGGAAAGTAATTTATGGAGTTTGATGTTATGTCAGGGTAATTA

CATGATTATATAATTAACAGGTTTCTTTTTAAATCAGCTATATCAATAGA

AAAATAAATGTAGGAATCAAGAGACTCATTCTGTCCATCTGTGATAGTTC

CATCATGATACTGCATTGTCAAGTCATTGCTCCAAAAATATGGTTTAGCT

CAACactgagtgactataggaaaccagaaaccaggctgggcgctaaagat

gcaaagatgaatgagacatcatctctgccgtccaaaagcttactgtctag

tgggagagttacacacgtaaggacagtaatctaataagagctaataagtg

aaaactaagataaattaataatacaagattacagggaaggtttccaaagt

caatgaggcctcaaatgaatcttgaaagtgtgcaaggattaaccaaatga