Suggested Architecture, a work in progres

Tasks to solve

Principles

Elements of the Solution

Existing Elements

New Elements

Autonomous Components

Overall Description

An autonomous component is watching the system, and discovers work to be done

Suggested solution:

Ingest into the Archive

Overall description:

Given a batch, put all jp2-files in the bitrepository, and all xml-files (including ALTO) into DOMS

Suggested solution:

 

Surveilance interface

Overall description:

A graphical web interface to show the current state for each batch

 Suggested solution:

Bitarkivet og bånd

 

Overordnet beskrivelse:

Filer skal gemmes i bitarkivet på ten ben, et nearline og et offline. Begge de involverede ben vil have en anseelig mændge cache, men vil være tape-backed.

Foreslået løsning:

 

Opgaver på data (jp2-filer)

 

Overordnet beskrivelse:

Alle operationer på data køres som hadoop-jobs på filer i bitmagasinet. Herunder karakterisering og generering af formidlingskopier.

Foreslået løsning:

 

Validering af metadata (i DOMS)

 

Overordnet beskrivelse:

Alle jobs der validerer metadata opfattes som jobs på et helt batch. Metadatavalidering kan være lokalt for én xml-fil eller kræve kendskab til sammenhæng mellem flere xml-filer i et batch - f.eks. validering af samme batchnummer i alt metadata eller validering af fortløbende sidenumre

Foreslået løsning:

 

Manuel QA

 

Overordnet beskrivelse:

Der skal foretages manuel QA på filer og metadata udvalgt efter statistisk princip. Derudover skal der evt. foretages manuel QA på filer vi kan identificere som mistænkelige (f.eks. et helt mørkt batch). Manuel QA kræver adgang til et system til at inspicere jp2-filer og metadata. Vi fravælger i første omgang at lave et egentligt workflowstyringsprogram.

Foreslået løsning:

 

Fejlede batches

 

Overordnet beskrivelse:

Batches fejles eller godkendes som et hele. Man kan ikke afvise dele af et batch, og leverandøren vil aflevere et nyt batch.

Foreslået løsning