Details
-
Task
-
Resolution: Duplicate
-
Major
-
None
-
None
-
None
-
General
Description
The following suggestions from Stephen would greatly reduce the number of templates required in the systemt and improve the flexibility of harvesting in NAS.
Jeg ville som udgangspunkt gerne have, at vi kan få vores H3 skabeloner så generiske som muligt, så de ikke længere skal rettes i. Efter en snak med Tue og Jon vil det betyde, at vi ville skulle have følgende ind i NAS eller som selvstændige filer. Parameter (GUI knapper): Niveauer - org.archive.modules.deciderules.TooManyHopsDecideRule - Max-hops={PLACEHOLDER} Overhold robots.txt - org.archive.crawler.datamodel.RobotsHonoringPolicy - type= {PLACEHOLDER} Ingen javascript extraction - org.archive.crawler.extractor.ExtractorJS - enabled={PLACEHOLDER} - org.archive.crawler.extractor.ExtractorHTML - extract-javascript={PLACEHOLDER} Regexp lister(GUI knapper/lister): Globale crawlertraps - org.archive.crawler.deciderules.MatchesListRegExpDecideRule - decision=REJECT - list-logic=OR - regexp-list=global_externallist.txt Lokale crawlertraps - org.archive.crawler.deciderules.MatchesListRegExpDecideRule - decision=REJECT - list-logic=OR - regexp-list=local_externallist.txt Facebook omvendt af crawlertraps (NotMatchingsList Regex) - org.archive.crawler.deciderules.NotMatchesListRegExpDecideRule - decision=REJECT - list-logic=OR</string> - regexp-list=facebook_externallist.txt Kan vi ikke få regexp listerne ind i NAS GUI, ville jeg forslå man henviste til selvstændige lister udenfor skabelonerne, som vi i stedet opdaterede. Mvh. Stephen