Els pipelines tradicionals estan molt lligats a les infraestructures de computació locals on s’executen. No tenen la capacitat de resumir un procés que s’hagi aturat, tenen poca documentació, no compten amb una traçabilitat dels paràmetres i versions de paquets utilitzats i requereixen instal·lació manual, la qual cosa impedeix una fàcil distribució d’aquest. Per poder solucionar aquests inconvenients s’han creat els Workflow Managers. Aquests permeten la utilització de pipelines d’anàlisis complexes en diferents entorns de computació assegurant la màxima reproductibilitat dels processos executats.
Diversos Workflow Managers s’han desenvolupat específicament per als camps de recerca i salut integrant entorns, contenidors i computació al núvol.
Hi ha cinc característiques que fan als Workflow Managers eines de gran utilitat:
- Reproductibilitat. La utilització d’entorns i contenidors assegura una reproductibilitat apropiada dels processos executats.
- Portabilitat. És un dels grans avantatges de la utilització de Workflow Managers, ja que crea els fluxos de treball necessaris per poder-se exportar a qualsevol entorn computacional. Molts d’ells permeten la fàcil migració a diferents entorns, inclosos els d’alta computació i serveis al núvol. Encara més, és possible la interacció directa amb orquestradors com Kubernetes o DockerSwarm.
- Escalabilitat. Ser capaç de manejar i analitzar dades amb una complexitat creixent és cada vegada més comú. En aquest sentit, hi ha dos aspectes que s’han de tenir en compte: el maneig eficient dels recursos i ser capaç d’utilitzar dades més complexes i de major grandària. La majoria de Workflow Managers implementen la paral·lelització en diversos passos, sigui mitjançant gestor de cues o scheduling estàtic o adaptatiu. La paral·lelització es pot produir en l’àmbit de dades, processos o pipelines. Una assignació dinàmica dels recursos permet que els processos més intensius no es vegin afectats respecte dels que no en requereixen tants. Aquest balanceig minimitza colls d’ampolla i redueix els temps de computació. Els recursos es poden assignar específicament per a cada pas del flux de treball.
- Robustesa. Molts pipelines requereixen processos complexos i de llarga durada. En el possible esdeveniment de la interrupció del pipeline en algun procés a causa d’un error, sigui programàtic o per l’absència d’un input requerit, els Workflow Managers són capaços de resumir el procés des del lloc on hi va haver l’últim pas correcte, resultant en l’estalvi en la utilització de recursos i temps. Aquest procés s’aconsegueix mitjançant la producció d’arxius i resultats intermedis, essent comparats amb els resultats esperats. Aquest procés genera un augment en les necessitats d’emmagatzematge, però comporta un avantatge substancial en el cas de tenir la necessitat d’una reentrada en el pipeline.
- Modularitat. La compartimentació dels processos permet un gran dinamisme en l’actualització de certs passos del procés, així com de la introducció de punts de control per a cada etapa. La modularitat també permet la reutilització d’un procés en diversos pipelines simultàniament.
Finalment, cal indicar que alguns Workflow Managers també tenen recursos per augmentar la seguretat en l’execució dels processos, com la validació de l’origen de les dades o utilitzar autenticació d’usuaris.