1.11. Buscar, ordenar i associar fitxers
1.11.1. Introducció
Quan es treballa amb dades bioinformàtiques, és comú trobar fitxers de text organitzats en format tabular, la qual cosa implica que la informació es distribueix en una matriu de files i columnes delimitades per espais o caràcters tabuladors. Cada línia representa un registre, mentre que cada columna conté valors específics dels atributs que el caracteritzen. Aquesta estructura de camps facilita la realització de càlculs sistemàtics sobre el contingut del fitxer en qüestió.
Generalment, en treballar amb fitxers tabulats en l’anàlisi bioinformàtica, s’adopta com a unitat elemental de treball la línia o registre. Sota aquest paradigma, es poden realitzar diversos tipus d’operacions, com buscar i separar del fitxer les línies que contenen un patró de text determinat, alterar l’ordre de les línies segons els valors d’algun dels atributs o filtrar registres duplicats. En certes circumstàncies, fins i tot és possible identificar aquells registres de dos fitxers de text diferents que posseeixen el mateix valor per a un determinat atribut.
Aquestes operacions aplicades sobre els fitxers d’anotacions són útils en l’anàlisi bioinformàtica per dur a terme fàcilment el recompte de diferents característiques biològiques, com els gens codificats a l’interior dels genomes. A la taula 9 es descriuen les ordres més útils per buscar i ordenar fitxers, així com associar-se entre ells.
Taula 9. Descripció d’ordres.
Ordre | Descripció |
grep |
Busca línies que coincideixin amb una expressió regular |
cut |
cut és un programa útil si el contingut està separat en camps (columnes) i només es volen obtenir certs camps |
sort |
sort ordenarà la seva entrada, de manera simple i senzilla. Per defecte, ordenarà alfabèticament, però hi ha moltes opcions disponibles per modificar el mecanisme d’ordenació. Assegura’t de revisar la pàgina de manual per veure tot el que pot fer |
uniq |
Elimina les línies duplicades successives (usar sort abans d’utilitzar uniq ) |
join |
Permet unir dos fitxers de text en un usant una columna com a clau comuna |