1.11. Buscar, ordenar y asociar ficheros
1.11.1. Introducción
Cuando se trabaja con datos bioinformáticos, es común encontrar ficheros de texto organizados en formato tabular, lo que implica que la información se distribuye en una matriz de filas y columnas delimitadas por espacios o caracteres tabuladores. Cada línea representa un registro, mientras que cada columna contiene valores específicos de los atributos que lo caracterizan. Esta estructura de campos facilita la realización de cálculos sistemáticos sobre el contenido del fichero en cuestión.
Generalmente, al trabajar con ficheros tabulados en el análisis bioinformático, se adopta como unidad elemental de trabajo la línea o registro. Bajo este paradigma, se pueden realizar varios tipos de operaciones, como buscar y separar del fichero las líneas que contienen un patrón de texto determinado, alterar el orden de las líneas según los valores de alguno de los atributos o filtrar registros duplicados. En ciertas circunstancias, incluso es posible identificar aquellos registros de dos ficheros de texto distintos que poseen el mismo valor para un determinado atributo.
Estas operaciones aplicadas sobre los ficheros de anotaciones son útiles en el análisis bioinformático para llevar a cabo fácilmente el recuento de diferentes características biológicas, como los genes codificados en el interior de los genomas. En la tabla 9 de se describen los comandos más útiles para buscar y ordenar ficheros, así como asociarse entre ellos.
Tabla 9. Descripción de comandos.
Comando | Descripción |
grep |
Busca líneas que coincidan con una expresión regular |
cut |
cut es un programa útil si el contenido está separado en campos (columnas) y solo se desea obtener ciertos campos |
sort |
sort ordenará su entrada, de manera simple y sencilla. Por defecto, ordenará alfabéticamente, pero existen muchas opciones disponibles para modificar el mecanismo de ordenamiento. Asegúrate de revisar la página de manual para ver todo lo que puede hacer |
uniq |
Elimina las líneas duplicadas sucesivas (usar sort antes de utilizar uniq ) |
join |
Permite unir dos ficheros de texto en uno usando una columna como clave común |