Details
-
Sub-task
-
Resolution: Fixed
-
Major
-
None
-
None
-
Rough
Description
Currently our Batch framework only handles ARCfiles on record level.
Currently we only have an abstract class handling ARCRecords(ARCBatchJob) with these concrete implementations:
- ExtractCDXJob,
- HarvestedUrlsForDomainBatchJob (also assumes crawl.log stored in ARC-file with URL "metadata://netarkivet.dk/crawl/logs/crawl.log")
ARCBatchJob could/should be generalized to handle ArchiveRecords instead of ArcRecords. I have a prototype for such a generalization in the trunk: https://sbforge.org/svn/netarchivesuite/trunk/tests/dk/netarkivet/common/utils/cdx/ArchiveBatchJob.java
Attachments
Issue Links
- mentioned in
-
Page Loading...
- Trackbacks
-
2012-03-22 Nicholas og svc sørger for at der er defineret opgaver med tilhørende beskrivelse vi kan bruge til BnF mødet hos KB omkring følgende ting: Definere metadata struktur i WARC filerne inspireret af nuværende meta data og mulighederne i default...
-
2012-03-22 status Nicholas og svc sørger for at der er defineret opgaver med tilhørende beskrivelse vi kan bruge til BnF mødet hos KB omkring følgende ting: Definere metadata struktur i WARC filerne inspireret af nuværende meta data og mulighederne i default...
-
2012-03-29 status Actions Actions fra sidste Nicholas og svc sørger for at der er defineret opgaver med tilhørende beskrivelse vi kan bruge til BnF mødet hos KB omkring følgende ting: Definere metadata struktur i WARC filerne inspireret af nuværende meta data og...