Introducción a los entornos de trabajo Gnu/Linux

La secuencia del genoma de múltiples especies está a disposición de cualquier persona que posea un ordenador con conexión a Internet, gracias al enorme esfuerzo de la comunidad científica cohesionada en varios consorcios internacionales, públicos y privados. Los grandes proyectos de secuenciación han producido una voluminosa cantidad de información genómica que debe ser gestionada de forma extremadamente eficiente y precisa para su posterior análisis. Solo la secuencia de nucleótidos del genoma humano, que ocupa varios gigabytes, contiene decenas de miles de genes y reguladores transcripcionales. De hecho, la reciente aparición de nuevos métodos de secuenciación masiva para cartografiar la localización de distintos elementos funcionales a lo largo de las secuencias genómicas en cualquier contexto celular va a multiplicar exponencialmente los requisitos actuales de tiempo de cálculo y espacio de almacenamiento.

El análisis exhaustivo de toda esta información para extraer nuevo conocimiento no puede realizarse manualmente. La gestión informática resulta esencial, por tanto, para manipular con garantías este volumen de datos. La bioinformática proporciona, en este sentido, el entorno ideal de trabajo para el biólogo molecular. En un entorno bioinformático de investigación, los genomas y las aplicaciones están almacenados localmente, evitando problemas de conexión y tráfico de la red. Estas estaciones de trabajo son las herramientas esenciales del investigador para efectuar análisis bioinformáticos de cualquier tipo de secuencia biológica.

Este módulo profundiza sobre la mayoría de las aplicaciones computacionales utilizadas habitualmente por un bioinformático para procesar información genómica. La familia de sistemas operativos GNU/Linux es la plataforma habitual de trabajo en esta clase de laboratorios. En primer lugar, realizaremos una introducción general a los conceptos básicos relacionados con los sistemas operativos. Posteriormente, enfocaremos nuestro interés en el manejo del terminal de GNU/Linux, la herramienta de trabajo usual para un bioinformático. Aprenderemos los comandos básicos, y cómo pueden combinarse estos para generar comandos aún más potentes que conformen protocolos completos de trabajo. Finalmente, veremos que podemos obtener fácilmente una copia de los grandes conjuntos de datos biológicos de referencia para poder analizarlos localmente en nuestro ordenador con suma facilidad. En resumen, dominaréis los elementos básicos de trabajo para integraros fácilmente dentro de cualquier entorno de investigación bioinformático.