Child pages
  • Processing and Reporting
Skip to end of metadata
Go to start of metadata
Processing and Reporting
========================

Oplæggene var:
* Processing
    * Hadoop streaming (BAM)
    * Pig (NBR)
    * Bitmagasin HDFS-pillar (KTC+ABR)
* Reporting
    * R og Hadoop over data

I løbet af diskussionerne blev der blandt andet kigget på følgende vi kunne kigge på:
* Kunne vi lade SCAPE execution platform være den infrastruktur vi bruger til alt arbejde på vores samlinger?
* Hvordan skal vi organisere vores metadata for at gøre dem bedst tilgængelige for masseprocesseringsframeworks
* Vinder vi noget ved at bruge HDFS på statsbiblioteket, når vi altid har netop en kopi af data tilgængelig via netværk?
* Hvor nemt kan/skal vi kunne køre et hadoop-job, og hvordan?
  • No labels

1 Comment

  1. Hvordan skal vi organisere vores metadata for at gøre dem bedst tilgængelige for masseprocesseringsframeworks?

    Det letteste er at have et repository der er velegnet til masseprocessering liggende som slave til det primære repository. Så kan vi lade det synkronisere op hver weekend, og holde det stabilt imens. Det vil løse problemet for read-masseprocessering.

    Der er basalt set ikke en løsning til masseprocessering-write, hvis vi skal have nogen form for kontrol eller check. Ja, hvis repositoriet bare er et filsystem kan 200 processer modifiere det samtidigt, men hvis alt skal igennem en webservice kan du ikke masseprocessere. Journal ideen vil ikke virke her heller, du vil bare få 200 processer der står og venter på at deres entry er blevet læst og udført.