Los ficheros son las unidades lógicas de información persistente dentro de un ordenador. Como carecen de estructura propia, es el programador quien establece cómo organizar la información en su interior (por ejemplo, ficheros FASTA, XML o JSON).
Mediante los comandos apropiados del terminal o línea de comandos, podemos analizar el contenido de los ficheros de un modo relativamente eficiente y cómodo. En el módulo «Introducción a los entornos de trabajo GNU/Linux» hemos trabajado con comandos del terminal para gestionar la información almacenada en ficheros de texto que contienen anotaciones biológicas. Sin embargo, cuando el volumen de información excede ciertos límites, como es el caso de la anotación completa de un genoma, y se incrementa el número de personas involucradas en un proyecto de investigación, es necesario organizar y estructurar la información en una base de datos y gestionarla utilizando un programa especializado, también llamado Sistema de Gestión de Bases de Datos (SGBD).
Un SGBD es la herramienta idónea para administrar eficientemente elevadas cantidades de registros o datos. La responsabilidad sobre la gestión y los formatos internos de los datos corresponde al sistema, liberando al propio usuario de estas tareas.
Con un sistema de la gestión de la información tendremos a nuestra disposición un conjunto de herramientas e instrucciones que nos permitirán extraer nuevo conocimiento de toda esta información.
En este módulo veremos dos modelos de gestión de los datos, el modelo relacional basado en el lenguaje SQL y utilizaremos el SGBD MySQL, y el modelo no relacional, también llamado NoSQL, y utilizaremos el SGBD MongoDB basado en colecciones de documentos.