Uploaded image for project: 'NetarchiveSuite'
  1. NetarchiveSuite
  2. NAS-2468

Der skal laves placeholders i GUI til generalisering af skabeloner

    XMLWordPrintable

Details

    • Bug
    • Resolution: Fixed
    • Critical
    • 5.1
    • None
    • GUI
    • None

    Description

      Hej Colin

      Jeg ville som udgangspunkt gerne have, at vi kan få vores H3 skabeloner så generiske som muligt, så de ikke længere skal rettes i.

      Efter en snak med Tue og Jon vil det betyde, at vi ville skulle have følgende ind i NAS eller som selvstændige filer.

      Parameter (GUI knapper):
      Niveauer

      • org.archive.modules.deciderules.TooManyHopsDecideRule
      • Max-hops= {PLACEHOLDER}
        Overhold robots.txt
        - org.archive.crawler.datamodel.RobotsHonoringPolicy
        - type= {PLACEHOLDER}

        Ingen javascript extraction

      • org.archive.crawler.extractor.ExtractorJS
      • enabled= {PLACEHOLDER}
        - org.archive.crawler.extractor.ExtractorHTML
        - extract-javascript={PLACEHOLDER}

      Regexp lister(GUI knapper/lister):
      Globale crawlertraps

      • org.archive.crawler.deciderules.MatchesListRegExpDecideRule
      • decision=REJECT
      • list-logic=OR
      • regexp-list=global_externallist.txt
        Lokale crawlertraps
      • org.archive.crawler.deciderules.MatchesListRegExpDecideRule
      • decision=REJECT
      • list-logic=OR
      • regexp-list=local_externallist.txt
        Facebook omvendt af crawlertraps (NotMatchingsList Regex)
      • org.archive.crawler.deciderules.NotMatchesListRegExpDecideRule
      • decision=REJECT
      • list-logic=OR</string>
      • regexp-list=facebook_externallist.txt

      Kan vi ikke få regexp listerne ind i NAS GUI, ville jeg forslå man henviste til selvstændige lister udenfor skabelonerne, som vi i stedet opdaterede.

      Mvh.
      Stephen

      Attachments

        Issue Links

          Activity

            People

              nicl@kb.dk Nicholas Clarke (Inactive)
              nicl@kb.dk Nicholas Clarke (Inactive)
              Watchers:
              2 Start watching this issue

              Dates

                Created:
                Updated:
                Resolved:

                Time Tracking

                  Estimated:
                  Original Estimate - Not Specified
                  Not Specified
                  Remaining:
                  Remaining Estimate - Not Specified
                  Not Specified
                  Logged:
                  Time Spent - 0.7h
                  0.7h