- Realitzeu la instal·lació de la versió més recent d’Ubuntu MATE dins d’una màquina virtual d’Oracle VirtualBox. Per a això, primer hauríeu d’obtenir una imatge ISO d’Ubuntu MATE. Posteriorment, cal crear una màquina virtual buida, inserir la imatge ISO d’Ubuntu i executar la instal·lació. Podeu emprar un administrador de la gestió de paquets de software per configurar el sistema final resultant.
- Esbrineu les funcions que realitza l’ordre
fold
del terminal. Analitzeu les opcions disponibles per a aquesta ordre. Després, dissenyeu un petit script que combini gawk amb l’ordrefold
per calcular la freqüència d’aparició absoluta i relativa de cada classe de nucleòtid en una seqüència genòmica emmagatzemada en un fitxer de text guardat en format FASTA. Avalueu el funcionament del vostre protocol sobre diverses seqüències d’ADN. - Esbrineu les funcions realitzades per Bioawk. Determineu quina és l’ordre origen d’aquesta extensió, els formats de dades biològiques que suporta i si és possible treballar amb fitxers comprimits amb gzip o amb altres ordres compressores.
- Estudieu l’ordre
sedl
. Per provar la seva eficàcia, graveu un full d’estil de MicrosoftExcel en format text (seleccioneu el tabulador com a separador de camps). Un cop a Gnu/Linux, verifiqueu amb l’ordreod
que aquest format propietari efectivament introdueix com a salt de línia els caràcters\r
i\n
. Finalment, empreu l’ordre per únicament mantenir el caràcter\n
(el terminal treballa en aquest format). - Dissenyeu un script en el terminal que us permeti realitzar l’anàlisi completa d’una sèrie de fitxers de la classe refGene.txt emmagatzemats en un directori. Cada fitxer ha de contenir en el seu propi nom l’organisme al qual pertany per evitar noms de fitxers duplicats (p.e.
refGene_human.txt
). Per a cada genoma podeu realitzar les mateixes preguntes mostrades en el cas d’estudi dels materials teòrics. - A continuació, us subministrem un arxiu FASTA i heu de contestar a les següents preguntes. El separador entre les dues columnes és el
\t
$ cat hib.fasta
HiB_C1 TGTTTGTTGTCACTGACTGATGTTGTGGTCTGG HiB_C2 TATATATTACTT HiB_C3 TATATATAACTTATA HiB_C4 TATATATAACTTATA HiB_C5 TATATATTACTT
- Imprimiu la línia que coincideix amb el patró
HiB_C4
. - Imprimiu la columna 1, un punt i coma, i la columna 2.
- Utilitzeu el concepte d’un operador condicional en la declaració d’impressió de la forma print CONDITION ? PRINT_IF_TRUE_TEXT : PRINT_IF_FALSE_TEXT per identificar les seqüències amb longituds > 14.
- Intenteu realitzar el següent exercici. Què és el que passa?
Es pot fer servir e1 després de l’últim bloc {} per imprimir-ho tot (1 és una notació abreujada per a {print $0} que es converteix en {print}, ja que, sense cap argument, print imprimirà $0 per defecte), i dins d’aquest bloc, podem canviar $0, per exemple, per assignar el primer camp a $0 per a la segona línia (NR==2).
- Utilitzeu l’ordre
getline
per carregar el contingut d’un altre arxiu a més del que esteu llegint. Intenteu, amb el bucle while, carregar cada línia del fitxer fasta en una variable: la b, per exemple.
- Contesteu les següents preguntes després de descarregar-vos el següent fitxer: https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt
- Els valors únics de la variable categòrica assembly_level es troben indicats a la columna #12, la qual mostra l’estat de l’ensamble. Quins són?
- Determineu el nombre de genomes per espècie, que es troba a la columna #8. Després, mostreu únicament les 10 espècies amb la major quantitat de genomes seqüenciats.
- Quants genomes complets hi ha del gènere Mycobacterium?
- Compteu els genomes de Salmonella, Pseudomonas i Acinetobacter (per gènere) i presenteu la llista ordenada per nombre decreixent de genomes.
- Determineu la longitud d’una cadena. Per què aquestes dues ordres donen diferent informació?
$ echo 'atattttGAATTtattGAATCAGGACC' | wc -c
$ echo 'atattttGAATTtattGAATCAGGACC' | awk 'END{print "El oligonucleótido", $0, "tiene" lenght($0), "nucleótidos de longitud"}'
- Trieu diversos fitxers que continguin seqüències FASTA.
- El nombre de seqüències per a un fitxer (awk, autoincrement).
- Amb un bucle determineu el nombre de seqüències per a tots els fitxers (for and, awk, autoincrement).