Gestió de dades | 1.14. Exemple pràctic: gestió del catàleg de gens humans

1.14. Exemple pràctic: gestió del catàleg de gens humans

Per demostrar com extreure coneixement útil d’una base de dades relacional, us proposem analitzar amb MySQL el contingut d’un catàleg de gens humans. Un gen és un fragment d’ADN ubicat en el genoma que conté la informació precisa per sintetitzar una molècula d’ARN. En els organismes eucariotes, un gen està constituït per una successió de fragments útils denominats exons. En una proporció significativa dels gens humans hi ha diverses combinacions alternatives d’exons, donant lloc a diferents formes alternatives d’un mateix gen, denominades transcrits alternatius. Per codificar la informació relativa a la localització dels gens en el genoma és freqüent utilitzar fitxers de text tabulat. Cada línia d’aquests fitxers conté els valors dels atributs que caracteritzen un transcrit d’un determinat gen. Bàsicament, un transcrit d’un gen posseeix una localització concreta, identificada per un cromosoma, una posició inicial/final i una direcció de lectura. Altres característiques que podem recuperar sobre un transcrit són el seu codi, el nom del gen, el nombre d’exons o les seves coordenades exactes.

Vegeu també

Per revisar els conceptes de genoma, cromosoma, gen i proteïna us recomanem l’assignatura Fonaments de biologia molecular.

El navegador genòmic d’UCSC representa gràficament els diferents tipus d’anotacions existents sobre el genoma humà en forma de centenars de pistes. Per administrar eficientment aquest elevat volum d’informació, una còpia del SGBD MySQL està funcionant de forma transparent als milers d’usuaris que cada dia visiten aquest servidor. D’aquesta manera, en el cas que volguem reproduir una pista al nostre ordinador, disposem a la secció de descàrregues d’un fitxer SQL per ser executat amb l’ordre source i un fitxer de text amb el conjunt de dades que s’han d’importar amb la instrucció LOAD DATA. En aquest exercici utilitzarem l’anotació dels gens humans distribuïda pel consorci RefSeq per al genoma humà. Aquest format és comú a totes les espècies subministrades pel navegador.

Vegeu també

És possible aprofundir sobre el funcionament dels navegadors genòmics en l’assignatura Genòmica computacional.

Ara procedirem a descarregar-nos els dos fitxers associats a la pista refGene, que conté el catàleg de gens humans anotats pel consorci RefSeq, en la seva versió hg38.

Per a això, hem d’utilitzar l’ordre wget per transferir tots dos fitxers al nostre terminal.

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.sql

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz

Mostrem a continuació el contingut del fitxer refGene.sql que realitza la creació de la taula refGene. Els atributs que consultarem amb més freqüència seran: name (codi del transcrit), chrom (cromosoma), strand (cadena), txStart i txEnd (coordenades d’inici i final), exonCount (nombre d’exons) i name2 (nom del gen).

És important no confondre els camps de name i name2: un gen pot tenir diversos transcrits, però un transcrit únicament pertany a un gen.

CREATE TABLE 'refGene' (
    'bin' smallint(5) unsigned NOT NULL,
    'name' varchar(255) NOT NULL,
    'chrom' varchar(255) NOT NULL,
    'strand' char(1) NOT NULL,
    'txStart' int(10) unsigned NOT NULL,
    'txEnd' int(10) unsigned NOT NULL,
    'cdsStart' int(10) unsigned NOT NULL,
    'cdsEnd' int(10) unsigned NOT NULL,
    'exonCount' int(10) unsigned NOT NULL,
    'exonStarts' longblod NOT NULL,
    'exonEnds' longblod NOT NULL,
    'score' int(11) DEFAULT NULL,
    'name2' varchar(255) NOT NULL,
    'cdsStartStat' enum('none','unk','incmpl','cmpl') NOT NULL,
    'cdsEndStat' enum('none','unk','incompl','cmpl') NOT NULL,
    'exonFrames' longblod NOT NULL,
    KEY 'chrom' ('chrom', 'bin'),
    KEY 'name' ('name'),
    KEY 'name2' ('name2')
) ENGINE=MyISAM DEFAULT CHARSET=1atin1;

Passarem ara a visualitzar amb el terminal el segon fitxer refGene.txt. Aquest arxiu conté les dades del catàleg complet de gens anotats en el genoma humà. Hem de carregar aquesta informació a la nostra base de dades un cop estigui creada la taula refGene. En el context d’aquest exercici, cada registre conté informació sobre el transcrit d’un determinat gen. En el cas que un gen posseeixi diversos transcrits, cadascun es codifica en registres separats (cadascú amb el seu propi codi i les seves corresponents coordenades).

En primer lloc, hem de descomprimir el fitxer amb l’ordre gzip.

% gzip -d refGene.txt.gz

% head -5 refGene.txt

585 NR_046018 chr1 + 11873 14409 14409 14409 3 11873,12612,13220, 12227,12721,14409, 0 DOX11L1
unk unk -1,-1,-1,

585 NR_024540 chrl - 14361 29370 29370 29370 11 14361,14969,15795,16606,16857,17232,11605, 11914,
18267,24737,29320,14829,15038,15947,16765,17055,17368,17742,18061,18366,24891,29370, 0 WASH7P
unk unk -1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,

932 NR_104645 chrX + 45505387 45523644 45523644 45523644 3 45505387,45510496,45521607, 45505465,
45510595,45523644, 0 LINC01204 unk unk -1,-1,-1,

1078 NR_104148 chr7 + 64666082 6468783O 64687830 64687830 4 64666082,64669036,64679176,64684334,
64666285,64669178,64679336,64687830, O ZNF107 unk unk -1,-1,-1,-1,

103 NR_120408 chrl4 + 31561384 31861223 31861223 31861223 10 31561384,31562067,31565013,31599288,
31673354,31673483,31826628,31846470,31850118,31859117,31561547,31562215,31565048,31599379,
31673394,31673574,31826714,31846591,31850201,3186l223, ONUBPL unk unk -1,-1,-1,-1,-1,-1,-1,-1,-1,-1,

Les anotacions d’un genoma solen actualitzar-se freqüentment. Per aquest motiu, les dades mostrades en aquest tutorial poden variar lleugerament amb el pas del temps.

Un cop dins de l’intèrpret de MySQL, indicarem que treballarem dins de la nostra base de dades.

Executarem, posteriorment, el fitxer refGene.sql amb l’ordre source per crear la taula refGene.

Per verificar que la instrucció anterior ha funcionat correctament, podem veure el llistat d’atributs de la taula refGene amb l’ordre DESCRIBE:

mysql> USE cataleg;

Database changed

mysql> DESCRIBE refGene;

+---------------+-----------------------------------+------+------+---------+-------+
| Field         | Type                              | Null | Key  | Default | Extra |
+---------------+-----------------------------------+------+------+---------+-------+
| bin           | smallint(5) unsigned              | NO   |      | NULL    |       |
| name          | varchar(255)                      | NO   | MUL  | NULL    |       |
| chrom         | varchar(255)                      | NO   | MUL  | NULL    |       |
| strand        | char(1)                           | NO   |      | NULL    |       |
| txStart       | int(10) unsigned                  | NO   |      | NULL    |       |
| txEnd         | int(10) unsigned                  | NO   |      | NULL    |       |
| cdsStart      | int(10) unsigned                  | NO   |      | NULL    |       |
| cdsEnd        | int(10) unsigned                  | NO   |      | NULL    |       |
| exonCount     | int(10) unsigned                  | NO   |      | NULL    |       |
| exonStarts    | longblog                          | NO   |      | NULL    |       |
| exonEnds      | longblog                          | NO   |      | NULL    |       |
| score         | int(11)                           | YES  |      | NULL    |       |
| name2         | varchar(255)                      | NO   | MUL  | NULL    |       |
| cdsStartStat  | emun('none','unk',incmpl','cmpl') | NO   |      | NULL    |       |
| cdsEndStat    | emun('none','unk',incmpl','cmpl') | NO   |      | NULL    |       |
| exonFrames    | longblog                          | NO   |      | NULL    |       |
+---------------+-----------------------------------+------+------+---------+-------+
16 rows in set (0.14 sec)

Assumirem que ambdós fitxers (refGene.sql i refGene.txt) estan guardats en la mateixa carpeta de treball des de la qual hem invocat el programa MySQL, anteriorment.

El segon pas consisteix a poblar la taula amb les anotacions dels gens humans que hem descarregat dins del fitxer refGene.txt. Fent servir l’ordre LOAD DATA podem bolcar tot el contingut a la taula refGene:

mysql> LOAD DATA LOCAL INFILE 'refGene.txt'  INTO TABLE refGene;

Query OK, 69853 rows affected (2.54 sec)
Records: 69853  Deleted: 0  Skipped: 0  Warnings: 0

Ens trobem en condicions de començar a interrogar la base de dades. Recordem, novament, que cada registre de la taula refGene alberga la informació associada a l’espai d’un gen en particular. Igualment, és important tenir en compte que una elevada fracció dels gens humans posseeix dos o més transcrits alternatius. La nostra missió, a continuació, és mostrar l’enorme potencial de les consultes de SQL a l’hora d’extreure nou coneixement biològic de les dades emmagatzemades a les taules de la nostra base de dades.

Començarem mostrant els primers registres de la nostra taula, incloent-hi únicament diversos dels seus atributs per afavorir la llegibilitat dels valors dels registres per pantalla:

mysql> SELECT name2,name,chrom,strand,txStart,txEnd,exonCount
    -> FROM refGene ORDER BY name2 LIMIT 10;

+----------+--------------+-------+--------+----------+----------+-----------+
| name2    | name1        | chrom | strand | txStart  | txEnd    | exonCount |
+----------+--------------+-------+--------+----------+----------+-----------+
| A1BG     | NM_130786    | chr19 | -      | 58346805 | 58353499 |         8 |
| A1BG-AS1 | NR_015380    | chr19 | +      | 58351969 | 5835583  |         4 |
| A1CF     | NM_01198819  | chr10 | -      | 50799408 | 50885675 |        15 |
| A1CF     | NM_014576    | chr10 | -      | 50799408 | 50885675 |        13 |
| A1CF     | NM_138932    | chr10 | -      | 50799408 | 50885675 |        13 |
| A1CF     | NM_01198820  | chr10 | -      | 50799408 | 50885675 |        14 |
| A1CF     | NM_01198818  | chr10 | -      | 50799408 | 50885675 |        14 |
| A1CF     | NM_138933    | chr10 | -      | 50799408 | 50885675 |        13 |
| A2M      | NM_001347423 | chr12 | -      |  9067707 |  9116229 |        37 |
| A2M      | NM_000014    | chr12 | -      |  9067707 |  9116229 |        36 |
+----------+--------------+-------+--------+----------+----------+-----------+
10 rows in set (0.00 sec)

Atès que cada registre conté la informació d’un transcrit, el nombre de transcrits coneguts en el genoma humà coincidirà amb el nombre de registres emmagatzemats a la taula refGene. Aquest comptatge és senzill:

mysql> SELECT COUNT(*) FROM refGene;

+----------+
| COUNT(*) |
+----------+
|  69853   |
+----------+
1 row in set (0.00 sec)

També podem comptar fàcilment el nombre total de gens codificats en el genoma humà. Si un gen posseeix diversos transcrits alternatius, llavors trobarem diversos registres en el nostre catàleg que posseeixen un valor diferent de l’atribut name, però que comparteixen el mateix valor per a l’atribut name2. Per tant, emprant la clàusula DISTINCT sobre aquest últim atribut, comptarem una única vegada cada gen de la nostra taula, encara que posseeixi diverses formes alternatives:

mysql> SELECT COUNT(DISTINCT name2) FROM refGene;

+-----------------------+
| COUNT(DISTINCT name2) |
+-----------------------+
|                 27656 |
+-----------------------+
1 row in set (0.07 sec)

Si agrupem els registres de la taula per l’atribut name2, podem elaborar un inventari del nombre de transcrits alternatius anotats per a cada gen.

mysql> SELECT name2, COUNT(name2)
    -> FROM refGene GROUP BY name2 LIMIT 10;

+----------+--------------+
| name2    | COUNT(name2) |
+----------+--------------+
| A1BG     |            1 |
| A1BG-AS1 |            1 |
| A1CF     |            6 |
| A2M      |            4 |
| A2M-AS1  |            3 |
| A2ML1    |            2 |
| A2MP1    |            1 |
| A3GALT2  |            1 |
| A4GALT   |            3 |
| A4GNT    |            1 |
+----------+--------------+
10 rows in set (0.00 sec)

Podem obtenir resultats interessants aplicant la clàusula WHERE sobre els atributs de cada registre. Per exemple, imaginem que desitgem conèixer el nombre de transcrits ubicats en cada cadena de la molècula d’ADN:

mysql> SELECT COUNT(*) FROM refGene WHERE strand LIKE '+';

+----------+
| COUNT(*) |
+----------+
|    35724 |
+----------+
1 row in set (0.10 sec)

mysql> SELECT COUNT(*) FROM refGene WHERE strand LIKE '-';

+----------+
| COUNT(*) |
+----------+
|    34129 |
+----------+
1 row in set (0.09 sec)

També podem comptar el nombre de transcrits localitzats en un cromosoma:

mysql> SELECT COUNT(*) FROM refGene WHERE chrom LIKE 'chr21';

+----------+
| COUNT(*) |
+----------+
|      961 |
+----------+
1 row in set (0.00 sec)

Novament, jugant amb l’atribut name2 podem comptar el nombre de gens codificats en el mateix cromosoma:

mysql> SELECT COUNT(DISTINCT name2) 
    -> FROM refGene WHERE chrom LIKE 'chr21';

+-----------------------+
| COUNT(DISTINCT name2) |
+-----------------------+
|                   408 |
+-----------------------+
1 row in set (0.01 sec)

O identificar quins són els transcrits que posseeixen un major nombre d’exons:

mysql> SELECT name2,name,exonCount 
    -> FROM refGene ORDER BY exonCount DESC LIMIT 10;

+-------+--------------+-----------+
| name2 | name         | exonCount |
+-------+--------------+-----------+
| TTN   | NM_001267550 |       363 |
| TTN   | NM_001256850 |       313 |
| TTN   | NM_133378    |       312 |
| TTN   | NM_133437    |       192 |
| TTN   | NM_133432    |       192 |
| TTN   | NM_003319    |       191 |
| NEB   | NM_001271208 |       183 |
| NEB   | NM_001164507 |       182 |
| NEB   | NM_001164508 |       182 |
| MUC19 | NM_173600    |       174 |
+-------+--------------+-----------+
10 rows in set (0.11 sec)

També podem seleccionar aquells que posseeixen un únic exó:

mysql> SELECT name2,name,exonCount
    -> FROM refGene WHERE exonCount = 1
    -> ORDER BY name2 LIMIT 10;

+------------+---------------+-----------+
| name2      | name          | exonCount |
+------------+---------------+-----------+
| AADACL2-AS1 | NR_110203    |         1 |
| ABALON      | NR_131907    |         1 |
| AEBP16B     | NM_080622    |         1 |
| ACKR1       | NM_001122951 |         1 |
| ACKR4       | NM_178445    |         1 |
| ACTBL2      | NM_001017992 |         1 |
| ACTG1P20    | NR_033926    |         1 |
| ACTG1P4     | NR_024438    |         1 |
| ACTL10      | NM_001024675 |         1 |
| ACTL7A      | NM_006687    |         1 |
+------------+---------------+-----------+
10 rows in set (0.00 sec)

És possible calcular el nombre d’exons, de mitjana, per cada transcrit:

mysql> SELECT AVG(exonCount) FROM refGene;

+----------------+
| AVG(exonCount) |
+----------------+
|         9.4126 |
+----------------+
1 row in set (0.11 sec)

I la longitud mitjana dels gens humans:

mysql> SELECT AVG(txEnd-txStart+1) FROM refGene;

+----------------------+
| AVG(txEnd-txStart+1) |
+----------------------+
|           56983.2770 |
+----------------------+
1 row in set (0.10 sec)

Finalment, integrarem en aquesta anàlisi el genoma de ratolí domèstic. Descarreguem els fitxers refGene.sql i refGene.txt d’aquesta espècie en la seva versió mm9.

Per evitar sobreescriure les anotacions humanes, hem de gravar ambdós fitxers amb un nom diferent (per exemple, refGene_mouse.sql i refGene_mouse.txt). Posteriorment, cal editar el contingut del fitxer SQL per modificar el nom de la taula, per la mateixa raó.

Després d’aquestes modificacions, ja estem en condicions de llançar la creació de la nova taula amb l’ordre source i la seva repoblació amb les dades relatives al genoma del ratolí amb l’ordre LOAD DATA.

DROP TABLE IF EXISTS 'refGene_mouse';

CREATE TABLE 'refGene_mouse' (
   'bin" smallint(S) unsigned NOT NULL,
   'name' varchar(255) NOT NULL,
   'chrom' varchar(255) NOT NULL,
   'strand' char(l) NOT NULL,
...
---------------------------------------

mysql> source 'refGene_mouse.sql';

Query OK, 0 rows affected (O.00 sec)

mysql> LOAD DATA LOCAL INFILE 'refGene_mouse.txt'
    -> INTO TABLE refGene_mouse;

Query OK, 34904 rows affected (l.23 sec)
Records: 34904  Deleted: O  Skipped: O  Warnings: 0

Comprovem que els registres emmagatzemats a la nova taula són correctes:

mysql> SELECT name2,name,chrom,strand,txStart,txEnd,exonCount
   -> FROM refGene_mouse ORDER BY name2 LIMIT 10;

+---------------+--------------+-------+--------+-----------+-----------+-----------+
| name2         | name         | chrom | strand | txStart   | txEnd     | exonCount |
+---------------+--------------+-------+--------+-----------+-----------+-----------+
| 0610005C13R1k | NR_O38166    | chr7  | -      |  52823164 |  52830S46 |         5 |
| 0610005C13R1k | NR_038165    | chr7  | -      |  52823164 |  52830S46 |         4 | 
| 0610007P14Rik | NM_021446    | chr12 | -      |  87156404 |  87165495 |         5 | 
| 0610009B22Rik | NM_L025319   | chr11 | -      |  51498886 |  51502136 |         2 | 
| 0610009Ll8Rik | NR_038126    | chr11 | +      | 120209991 | 120212504 |         2 | 
| 0610009O20Rik | NM_024179    | chr18 | +      |  38409902 |  38422283 |        13 | 
| 0610010B08Rik | NM_001177543 | chr2  | -      | 175017505 | 175163713 |         6 | 
| 0610010B08Rik | NM_001177543 | chr2  | -      | 174952492 | 175261278 |         6 |
| 0610010B08Rik | NM_001177543 | chr2  | +      | 175639522 | 175655901 |         5 |
| 0610010B08Rik | NM_001177543 | chr2  | +      | 175737073 | 175753460 |         5 |
+---------------+--------------+-------+--------+-----------+-----------+-----------+
10 rows in set (0,00 sec)

Ara, si seleccionem aquells registres de les dues taules que pertanyen al mateix gen en ambdues espècies, podem construir un catàleg de gens homòlegs.

Podem dur a terme aquesta associació perquè SQL no distingeix entre majúscules o minúscules a l’hora de comparar la columna name2.

mysql> SELECT DISTINCT refGene.name2,refGene.chrom,refGene.strand,
    -> RefGene.txStart,refGene.txEnd,refGene.exonCount,
    -> refGene_mouse.name2,RefGene_mouse.chrom,
    -> refGene_mouse.strand,refGene_mouse.txStart,
    -> refGene_mouse.txEnd,refGene_mouse.exonCount
    -> FROM refGene JOIN refGene_mouse
    -> ON refGene.name2 = refGene_mouse.name2
    -> ORDER BY refGene.name2 ASC LIMIT 10;

+---------+-------+--------+----------+----------+-----------+---------+-------+--------+-----------+-----------+-----------+
| name2   | chrom | strand | txStart  | txEnd    | exonCount | name2   | chrom | strand | txStart   | txEnd     | exonCount |
+---------+----------------+----------+----------+-----------+---------+-------+--------+-----------+-----------+-----------+
| A1BG    | chr19 | -      | 58346805 | 58353499 |         8 | A1bg    | chr15 | -      |  60749143 |  60752825 |         7 |
| A1CF    | chr10 | -      | 50799408 | 50885675 |        13 | A1cf    | chr19 | +      |  31943250 |  32023896 |        12 |
| A1CF    | chr10 | -      | 50799408 | 50885675 |        14 | A1cf    | chr19 | +      |  31943250 |  32023896 |        12 |
| A1CF    | chr10 | -      | 50799408 | 50885675 |        15 | A1cf    | chr19 | +      |  31943250 |  32023896 |        12 |
| A2M     | chr12 | -      |  9067707 |  9116229 |        35 | A2m     | chr6  | +      | 121586190 | 121629256 |        36 |
| A2M     | chr12 | -      |  9067707 |  9116229 |        36 | A2m     | chr6  | +      | 121586190 | 121629256 |        36 |
| A2M     | chr12 | -      |  9067707 |  9116229 |        37 | A2m     | chr6  | +      | 121586190 | 121629256 |        36 |
| A3GALT2 | chr1  | -      | 33306765 | 33321098 |         5 | A3galt2 | chr4  | +      | 128436501 | 128446542 |         5 |
| A4GALT  | chr22 | -      | 42692111 | 42720910 |         3 | A4galt  | chr15 | -      |  83057151 |  83082161 |         3 |
| A4GALT  | chr22 | -      | 42692111 | 42720910 |         3 | A4galt  | chr15 | -      |  83057151 |  83082204 |         3 |
+---------+-------+--------+----------+----------+-----------+---------+-------+--------+-----------+-----------+-----------+
10 rows in set (5.14 sec)

Search

1. Bases de dades relacionals

1.14. Exemple pràctic: gestió del catàleg de gens humans