Uploaded image for project: 'NetarchiveSuite'
  1. NetarchiveSuite
  2. NAS-2464

NAS-HC Set a wide range of harvest parameters via NAS

    XMLWordPrintable

Details

    • Task
    • Resolution: Duplicate
    • Major
    • 5.1
    • None
    • None
    • None
    • General

    Description

      The following suggestions from Stephen would greatly reduce the number of templates required in the systemt and improve the flexibility of harvesting in NAS.

      Jeg ville som udgangspunkt gerne have, at vi kan få vores H3 skabeloner så generiske som muligt, så de ikke længere skal rettes i.
      
      Efter en snak med Tue og Jon vil det betyde, at vi ville skulle have følgende ind i NAS eller som selvstændige filer.
      
      Parameter (GUI knapper):
      Niveauer
      
      -       org.archive.modules.deciderules.TooManyHopsDecideRule
      
      -       Max-hops={PLACEHOLDER}
      Overhold robots.txt
      
      -       org.archive.crawler.datamodel.RobotsHonoringPolicy
      
      -       type= {PLACEHOLDER}
      Ingen javascript extraction
      
      -       org.archive.crawler.extractor.ExtractorJS
      
      -       enabled={PLACEHOLDER}
      
      -       org.archive.crawler.extractor.ExtractorHTML
      
      -       extract-javascript={PLACEHOLDER}
      
      Regexp lister(GUI knapper/lister):
      Globale crawlertraps
      
      -       org.archive.crawler.deciderules.MatchesListRegExpDecideRule
      
      -       decision=REJECT
      
      -       list-logic=OR
      
      -       regexp-list=global_externallist.txt
      Lokale crawlertraps
      
      -       org.archive.crawler.deciderules.MatchesListRegExpDecideRule
      
      -       decision=REJECT
      
      -       list-logic=OR
      
      -       regexp-list=local_externallist.txt
      Facebook omvendt af crawlertraps (NotMatchingsList Regex)
      
      -       org.archive.crawler.deciderules.NotMatchesListRegExpDecideRule
      
      -       decision=REJECT
      
      -       list-logic=OR</string>
      
      -       regexp-list=facebook_externallist.txt
      
      Kan vi ikke få regexp listerne ind i NAS GUI, ville jeg forslå man henviste til selvstændige lister udenfor skabelonerne, som vi i stedet opdaterede.
      
      Mvh.
      Stephen
      

      Attachments

        Issue Links

          Activity

            People

              csr Colin Rosenthal
              csr Colin Rosenthal
              Watchers:
              1 Start watching this issue

              Dates

                Created:
                Updated:
                Resolved: