Uploaded image for project: 'NetarchiveSuite'
  1. NetarchiveSuite
  2. NAS-2468

Der skal laves placeholders i GUI til generalisering af skabeloner

    Details

    • Type: Bug
    • Status: Resolved
    • Priority: Critical
    • Resolution: Fixed
    • Affects Version/s: None
    • Fix Version/s: 5.1
    • Component/s: GUI
    • Labels:
      None

      Description

      Hej Colin

      Jeg ville som udgangspunkt gerne have, at vi kan få vores H3 skabeloner så generiske som muligt, så de ikke længere skal rettes i.

      Efter en snak med Tue og Jon vil det betyde, at vi ville skulle have følgende ind i NAS eller som selvstændige filer.

      Parameter (GUI knapper):
      Niveauer

      • org.archive.modules.deciderules.TooManyHopsDecideRule
      • Max-hops= {PLACEHOLDER}
        Overhold robots.txt
        - org.archive.crawler.datamodel.RobotsHonoringPolicy
        - type= {PLACEHOLDER}

        Ingen javascript extraction

      • org.archive.crawler.extractor.ExtractorJS
      • enabled= {PLACEHOLDER}
        - org.archive.crawler.extractor.ExtractorHTML
        - extract-javascript={PLACEHOLDER}

      Regexp lister(GUI knapper/lister):
      Globale crawlertraps

      • org.archive.crawler.deciderules.MatchesListRegExpDecideRule
      • decision=REJECT
      • list-logic=OR
      • regexp-list=global_externallist.txt
        Lokale crawlertraps
      • org.archive.crawler.deciderules.MatchesListRegExpDecideRule
      • decision=REJECT
      • list-logic=OR
      • regexp-list=local_externallist.txt
        Facebook omvendt af crawlertraps (NotMatchingsList Regex)
      • org.archive.crawler.deciderules.NotMatchesListRegExpDecideRule
      • decision=REJECT
      • list-logic=OR</string>
      • regexp-list=facebook_externallist.txt

      Kan vi ikke få regexp listerne ind i NAS GUI, ville jeg forslå man henviste til selvstændige lister udenfor skabelonerne, som vi i stedet opdaterede.

      Mvh.
      Stephen

        Attachments

          Issue Links

            Activity

              People

              • Assignee:
                nicl@kb.dk Nicholas Clarke (Inactive)
                Reporter:
                nicl@kb.dk Nicholas Clarke (Inactive)
              • Watchers:
                2 Start watching this issue

                Dates

                • Created:
                  Updated:
                  Resolved:

                  Time Tracking

                  Estimated:
                  Original Estimate - Not Specified
                  Not Specified
                  Remaining:
                  Remaining Estimate - Not Specified
                  Not Specified
                  Logged:
                  Time Spent - 0.7h
                  0.7h