Details
-
Bug
-
Resolution: Fixed
-
Critical
-
None
-
None
Description
Hej Colin
Jeg ville som udgangspunkt gerne have, at vi kan få vores H3 skabeloner så generiske som muligt, så de ikke længere skal rettes i.
Efter en snak med Tue og Jon vil det betyde, at vi ville skulle have følgende ind i NAS eller som selvstændige filer.
Parameter (GUI knapper):
Niveauer
- org.archive.modules.deciderules.TooManyHopsDecideRule
- Max-hops=
{PLACEHOLDER}
Overhold robots.txt
- org.archive.crawler.datamodel.RobotsHonoringPolicy
- type= {PLACEHOLDER}Ingen javascript extraction
- org.archive.crawler.extractor.ExtractorJS
- enabled=
{PLACEHOLDER}
- org.archive.crawler.extractor.ExtractorHTML
- extract-javascript={PLACEHOLDER}
Regexp lister(GUI knapper/lister):
Globale crawlertraps
- org.archive.crawler.deciderules.MatchesListRegExpDecideRule
- decision=REJECT
- list-logic=OR
- regexp-list=global_externallist.txt
Lokale crawlertraps - org.archive.crawler.deciderules.MatchesListRegExpDecideRule
- decision=REJECT
- list-logic=OR
- regexp-list=local_externallist.txt
Facebook omvendt af crawlertraps (NotMatchingsList Regex) - org.archive.crawler.deciderules.NotMatchesListRegExpDecideRule
- decision=REJECT
- list-logic=OR</string>
- regexp-list=facebook_externallist.txt
Kan vi ikke få regexp listerne ind i NAS GUI, ville jeg forslå man henviste til selvstændige lister udenfor skabelonerne, som vi i stedet opdaterede.
Mvh.
Stephen
Attachments
Issue Links
- is depended by
-
NAS-2464 NAS-HC Set a wide range of harvest parameters via NAS
- Closed