Introducció als entorns de treball Gnu/Linux

Realitzeu la instal·lació de la versió més recent d’Ubuntu MATE dins d’una màquina virtual d’Oracle VirtualBox. Per a això, primer hauríeu d’obtenir una imatge ISO d’Ubuntu MATE. Posteriorment, cal crear una màquina virtual buida, inserir la imatge ISO d’Ubuntu i executar la instal·lació. Podeu emprar un administrador de la gestió de paquets de software per configurar el sistema final resultant.
Esbrineu les funcions que realitza l’ordre fold del terminal. Analitzeu les opcions disponibles per a aquesta ordre. Després, dissenyeu un petit script que combini gawk amb l’ordre fold per calcular la freqüència d’aparició absoluta i relativa de cada classe de nucleòtid en una seqüència genòmica emmagatzemada en un fitxer de text guardat en format FASTA. Avalueu el funcionament del vostre protocol sobre diverses seqüències d’ADN.
Esbrineu les funcions realitzades per Bioawk. Determineu quina és l’ordre origen d’aquesta extensió, els formats de dades biològiques que suporta i si és possible treballar amb fitxers comprimits amb gzip o amb altres ordres compressores.
Estudieu l’ordre sedl. Per provar la seva eficàcia, graveu un full d’estil de MicrosoftExcel en format text (seleccioneu el tabulador com a separador de camps). Un cop a Gnu/Linux, verifiqueu amb l’ordre od que aquest format propietari efectivament introdueix com a salt de línia els caràcters \r i \n. Finalment, empreu l’ordre per únicament mantenir el caràcter \n (el terminal treballa en aquest format).
Dissenyeu un script en el terminal que us permeti realitzar l’anàlisi completa d’una sèrie de fitxers de la classe refGene.txt emmagatzemats en un directori. Cada fitxer ha de contenir en el seu propi nom l’organisme al qual pertany per evitar noms de fitxers duplicats (p.e. refGene_human.txt). Per a cada genoma podeu realitzar les mateixes preguntes mostrades en el cas d’estudi dels materials teòrics.
A continuació, us subministrem un arxiu FASTA i heu de contestar a les següents preguntes. El separador entre les dues columnes és el \t

$ cat hib.fasta

HiB_C1    TGTTTGTTGTCACTGACTGATGTTGTGGTCTGG

HiB_C2    TATATATTACTT

HiB_C3    TATATATAACTTATA

HiB_C4    TATATATAACTTATA

HiB_C5    TATATATTACTT

Imprimiu la línia que coincideix amb el patró HiB_C4.
Imprimiu la columna 1, un punt i coma, i la columna 2.
Utilitzeu el concepte d’un operador condicional en la declaració d’impressió de la forma print CONDITION ? PRINT_IF_TRUE_TEXT : PRINT_IF_FALSE_TEXT per identificar les seqüències amb longituds > 14.
Intenteu realitzar el següent exercici. Què és el que passa?

Es pot fer servir e1 després de l’últim bloc {} per imprimir-ho tot (1 és una notació abreujada per a {print $0} que es converteix en {print}, ja que, sense cap argument, print imprimirà $0 per defecte), i dins d’aquest bloc, podem canviar $0, per exemple, per assignar el primer camp a $0 per a la segona línia (NR==2).

Utilitzeu l’ordre getline per carregar el contingut d’un altre arxiu a més del que esteu llegint. Intenteu, amb el bucle while, carregar cada línia del fitxer fasta en una variable: la b, per exemple.

Contesteu les següents preguntes després de descarregar-vos el següent fitxer: https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt

Els valors únics de la variable categòrica assembly_level es troben indicats a la columna #12, la qual mostra l’estat de l’ensamble. Quins són?
Determineu el nombre de genomes per espècie, que es troba a la columna #8. Després, mostreu únicament les 10 espècies amb la major quantitat de genomes seqüenciats.
Quants genomes complets hi ha del gènere Mycobacterium?
Compteu els genomes de Salmonella, Pseudomonas i Acinetobacter (per gènere) i presenteu la llista ordenada per nombre decreixent de genomes.
Determineu la longitud d’una cadena. Per què aquestes dues ordres donen diferent informació?

$ echo 'atattttGAATTtattGAATCAGGACC' | wc -c

$ echo 'atattttGAATTtattGAATCAGGACC' | awk 'END{print "El oligonucleótido", $0, "tiene" lenght($0), "nucleótidos de longitud"}'

Trieu diversos fitxers que continguin seqüències FASTA.

El nombre de seqüències per a un fitxer (awk, autoincrement).
Amb un bucle determineu el nombre de seqüències per a tots els fitxers (for and, awk, autoincrement).

Search

Activitats