1.17. Exemple pràctic 1: Analitzant el genoma humà
1.17.2. Descàrrega i exploració del genoma humà
L’organització del genoma d’un organisme es dona en un conjunt de cromosomes. En aquest exemple, es procedeix a descarregar l’anotació sobre els cromosomes del genoma humà en la seva distribució hg38. S’adjunta la taula 18 amb els accessos de descàrrega que s’utilitzaran.
Taula 18. Pàgines web del navegador genòmic UCSC.
Accés | Direcció |
Pàgina principal servidor UCSC | http://genome.ucsc.edu/ |
Pàgina descàrregues (genoma data) | https://hgdownload.soe.ucsc.edu/downloads.html |
Pàgina llistat espècies | https://hgdownload.soe.ucsc.edu/goldenPath/currentGenomes/ |
Pàgina accés espècie human | https://hgdownload.soe.ucsc.edu/downloads.html#human |
Pàgina accés espècie human | https://hgdownload.soe.ucsc.edu/goldenPath/hg38/ |
Pàgina Sequence data by Chromosome | https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/ |
Pàgina accés bigZips | https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/ |
Primerament, s’accedeix a la pàgina de descàrregues (en anglès, downloads) del navegador genòmic UCSC (https://hgdownload.soe.ucsc.edu/downloads.html).
El contingut d’aquesta pàgina ens mostra el llistat de genomes disponibles organitzat per espècies. A data de 26 d’abril de 2023 hi ha informació sobre 108 espècies.
En fer ús de l’enllaç Human, entrem a la secció dedicada al genoma humà. És important destacar que la informació corresponent a cada genoma s’actualitza amb certa freqüència, per la qual cosa cada millora substancial compta amb un codi de versió propi. En aquest cas, treballarem amb la distribució coneguda com a hg38, la qual és la més recent al moment de la redacció d’aquests materials.
Si des de la pàgina d’accés a l’espècie humana accediu a l’enllaç associat a Sequence data by chromosome (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes) accedireu al llistat dels fitxers comprimits FASTA de cadascun dels cromosomes (chr*.fa.gz), a la seqüències random, que són seqüències no col·locades en els anteriors cromosomes de referència (chr*_random), i a les seqüències chrUn_*, que són seqüències no localitzades en les quals el cromosoma de referència no ha estat determinat. En la mateixa data esmentada anteriorment, hi ha 456 seqüències FASTA associades a diferents cromosomes.
Si des d’aquesta última localització s’accedeix al Parent Directory (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/), trobareu el directori anomenat bigZips (https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/), que és un altre repositori de fitxers, amb diferents formats, associat al genoma humà. Tots els arxius estan comprimits i empaquetats per reduir el temps de transmissió.
El fitxer hg38.chromFa.tar.gz conté la seqüència original dels cromosomes separats en arxius independents. Cal descarregar aquest fitxer i es farà amb l’ordre wget, però només has de descarregar el fitxer si tens més de 5 Gb disponibles al disc dur. Si tens menys de 5 Gb lliures, descarrega la seqüència FASTA del cromosoma 7 des del directori https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/
# L’ordre df
és l’ordre que s’utilitza per esbrinar l’espai en disc
$ df -h
Filesystem Size Used Available Use% Mounted on udev 959M 0 959M 0% /dev tmpfs 199M 1,4M 197M 1% /run /dev/sda5 20G 16G 2,9G 85% / tmpfs 991M 0 991M 0% /dev/shm tmpfs 5,0M 4,0K 5,0M 1% /run/lock tmpfs 991M 0 991M 0% /sys/fs/cgroup /dev/loop1 64M 64M 0 100% /snap/core20/1852
En la màquina en la qual s’està treballant només hi ha disponibles 2,9 G d’espai (columna Available), per la qual cosa en aquest cas només es descarrega la seqüència FASTA del cromosoma 7. Si hi hagués espai en el disc dur per descarregar el fitxer amb tota la informació, el procediment seria el següent:
$ wget https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz
--2023-04-26 13:22:55-- https://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz S'està resolent hgdownload.soe.ucsc.edu (hgdownload.soe.ucsc.edu)... 128.114.119.163 S'està connectant a hgdownload.soe.ucsc.edu (hgdownload.soe.ucsc.edu)|128.114.119.163|:443... conectat. HTTP: s'ha enviat la petició, s'està esperant una resposta... 200 OK Mida: 983726049 (938M) [application/x-gzip] S'està desant a: «hg38.chromFa.tar.gz» hg38.chromFa.tar.gz 100%[===================================>] 938,15M 7,82MB/s in 2m 25s 2023-04-26 13:25:22 (6,47 MB/s) - s'ha desat «hg38.chromFa.tar.gz» [983726049/983726049]
Un cop el fitxer està descarregat a la màquina Gnu/Linux amb la qual es treballi s’ha de desempaquetar i descomprimir el fitxer amb l’objectiu de visualitzar-ne el contingut.
$ ls -alh hg38.chromFa.tar.gz
-rw-rw-r-- 1 student student 939M de gen. 24 2014 hg38.chromFa.tar.gz
$ tar -vzxf hg38.chromFa.tar.gz
./chroms/ ./chroms/chr1.fa ./chroms/chr10.fa ./chroms/chr11.fa ./chroms/chr11_KI270721v1_random.fa ./chroms/chr12.fa ./chroms/chr13.fa …
Tot i que la qualitat de la seqüència del genoma humà és acceptable, encara es troba en fase de millora. A causa d’això, és comú trobar nombrosos arxius que contenen fragments o variants que encara estan en discussió i que no necessàriament corresponen a un cromosoma complet. És possible visualitzar el primer cromosoma al terminal; no obstant això, en algunes parts del cromosoma, com l’inici, la seqüència de nucleòtids és desconeguda i es denota amb el caràcter N. A més, per indicar la presència d’elements codificats en la seqüència, es pot utilitzar una combinació de lletres majúscules i minúscules.
$ more chr7.fa
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN … … NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN GAATTCTACATTAGAAAAATAAACCATAGCCTCATCACAGGCACTTAAAT ACACTGAAGCTGCCAAAACAATCTATCGTTTTGCCTACGTACTTATCAAC TTCCTCATAGCAAACTGGGAGAAAAAAGCAATGGAATGAATAAAATGATA GCCACAAAAATCAAGGTGGGAGAAATACTTATTATATGTCCATAAAAAAT TTTAATTAATGCAAAGTATTAACACCAATGATTGCAGTAATACAGATCTT ACAAATGATAGTTTTAGTCTGAACAGGACTATCCAAAAGTTAATTTTCTA TAGTAACAGTTTTTAAATAAAATATCAATTCCTGAAACACATAAAATGGT CCATGAGTATACAACGAGTGAAAAAAAACAAATTCAGAGCAAAGATAAAT TAAGAAGTATCTAATATTCAAACATAGTCAAAGAGAGGGAGATTTCTGGA TAATCACTTAAGCCCATGGTTAAACATAAATGCAAATATGTTAATGTTTA CTGAATAACTTATCTGTGCCAAGTGGTGTATTAATGATTCATTTTTATTT TTCACTAAATCTTTTCTCTAAAGTTGGTGTAGCCTGCAACTAAATGCAAG AAATCTGACCTAGGACCTGCACTTCTTACCATTTTGCTCATATTTATTCC CTGTGCATTTTTGTAACATGTATATGTTATATATATAGAAAGAGAGAGAG GCAGAGATGGAAAGTAATTTATGGAGTTTGATGTTATGTCAGGGTAATTA CATGATTATATAATTAACAGGTTTCTTTTTAAATCAGCTATATCAATAGA AAAATAAATGTAGGAATCAAGAGACTCATTCTGTCCATCTGTGATAGTTC CATCATGATACTGCATTGTCAAGTCATTGCTCCAAAAATATGGTTTAGCT CAACactgagtgactataggaaaccagaaaccaggctgggcgctaaagat gcaaagatgaatgagacatcatctctgccgtccaaaagcttactgtctag tgggagagttacacacgtaaggacagtaatctaataagagctaataagtg aaaactaagataaattaataatacaagattacagggaaggtttccaaagt caatgaggcctcaaatgaatcttgaaagtgtgcaaggattaaccaaatga