________________________________________
Fra: Jonas Lindberg Frellesen
Sendt: 3. februar 2011 10:26
Til: Tue Larsen
Emne: SV: ? Heritrix PathologicalPathFilter
Hej Tue
Jeg tror ikke, at vi har nogle batchjobs, som kan udfre prcis den opgave, men jeg tror ikke, at det vil vre s
svrt at lave et sdan batchjob.
Hjest 0.5 md, hvilket er inklusiv tests.
Med venlig hilsen
Jonas
-----Oprindelig meddelelse-----
Fra: Tue Larsen
Sendt: Thursday, February 03, 2011 10:15 AM
Til: Jonas Lindberg Frellesen
Emne: VS: ? Heritrix PathologicalPathFilter
Kan vi genbruge nogle eksisterende batch job til en sdan analyse?
mvh
Tue
________________________________________
Fra: Bjarne Andersen [bja@statsbiblioteket.dk]
Sendt: 3. februar 2011 09:52
Til: Jon Eiriksson; Tue Larsen
Cc: Sren Vejrup Carlsen; Christen Hedegaard; Karen Hgsberg
Emne: RE: ? Heritrix PathologicalPathFilter
Det ville nok vre oplagt at f lavet et lille batchjob der ud af netarkivets CDX-filer (i de skaldte metadata-filer)
finder alle de steder hvor der er prcis 3 repetitioner "/img/img/img/" - s kan vi/I jo lave en stikprve
p om der er nogle af dem der faktisk er reelt indhold p. Mit umiddelbare gt vil ogs vre at det vil vre meget
meget f sider der reelt har noget vi skal have p URL'er med 3 repetitioner. S hvis stikprven kan bekrfte dette
kan vi jo stte den ned til 2.
mvh
-
Bjarne Andersen
head of Digital Preservation Technology
Statsbiblioteket
Victor Albecks Vej 1
8000 rhus C
Tel: (+45 89462165)
Mob: (+45 25662353)
CVR/SE 10100682 - EAN 5798000791084
www.statsbiblioteket.dk
> -----Original Message-----
> From: Jon Eiriksson [mailto:jei@kb.dk]
> Sent: Thursday, February 03, 2011 9:11 AM
> To: Tue Larsen
> Cc: Sren Vejrup Carlsen; Christen Hedegaard; kah@kb.dk; Bjarne
> Andersen
> Subject: SV: ? Heritrix PathologicalPathFilter
>
> Kre Tue!
> Mange tak. Det er i det mindste meget godt, at erfare, at systemet
> arbejder med problemet.
> Sprgsmlet er dog nu om vi ikke kan stte denne "max-repetitions"
> ned til 2; 2?
> Det ser jo alligevel lidt mrkeligt ud med 3 sidestillede
> "repetitions" i en URL. Mske kunne vi afprve i batch-vrktjet?
> Drmmen er stadigvk "max-repetitions">2 sknt de ikke er
> sidestillede i en URL (som selvflgelig ogs skulle afprves fr
> den evt. blev taget i brug.)
> Hilsen
> Jn
>
> -----Oprindelig meddelelse-----
> Fra: Tue Larsen
> Sendt: 2. februar 2011 17:44
> Til: Jon Eiriksson
> Cc: Sren Vejrup Carlsen; Christen Hedegaard
> Emne: VS: ? Heritrix PathologicalPathFilter
>
> FYI
>
> Vi bruger allerede PathologicalPathFilter i alle skabeloner:
> class="org.archive.crawler.deciderules.PathologicalPathDecideRule">
> 3
>
>
> Og blokerer alts URL'er med mere end 3 gentagede directory-navne -
> som jeg forstr fileteret skal det dog vre lige efter hinanden s
> - http://netarkivet.dk/img/img/img/img/test.gif blokeres
> - http://netarkivet.dk/img/css/img/css/img/css/img/css/test.gif
> blokeres ikke da det er et mnster p 2 directorynavne der gentages
>
> Jeg kan tage fejl omkring det sidste - jeg kan heller ikke
> gennemskue det ud fra manualen hvor eksemplet ogs er
> /img/img/img/img/.....
>
> S - vi bruger det allerede !
>
> -
> Bjarne
>
> ________________________________________
> Fra: Tue Larsen [tlr@kb.dk]
> Sendt: 2. februar 2011 16:40
> Til: Bjarne Andersen
> Emne: ? Heritrix PathologicalPathFilter
>
> Hej Bjarne
>
> Har du prvet Heritrix PathologicalPathFilter?
>
> mvh
> Tue
> ________________________________________
> Fra: Sren Vejrup Carlsen
> Sendt: 2. februar 2011 11:27
> Til: Tue Larsen
> Cc: Jon Eiriksson; Christen Hedegaard
> Emne: SV: ? Heritrix PathologicalPathFilter
>
> Hej Tue.
> Nej, jeg har ikke prvet at arbejde med det.
>
> Men det var nok den feature jeg vidste, at Heritrix havde, p mdet
> i gr.
>
> Vores lokale globale crawler-traps bliver indlagt i en/flere
> org.archive.crawler.deciderules.MatchesListRegExpDecideRule(s)
>
> S hvis man vil benytte PathologicalPathFilter, skal de lgges ind
> p forhnd i vores heritrix templates
> /Sren
>
> -----Oprindelig meddelelse-----
> Fra: Tue Larsen
> Sendt: 2. februar 2011 06:12
> Til: Sren Vejrup Carlsen
> Cc: Jon Eiriksson; Christen Hedegaard
> Emne: ? Heritrix PathologicalPathFilter
>
> Hej Sren
>
> Har du prvet at arbejde med Heritrix
> org.archive.crawler.filter.PathologicalPathFilter ?
>
>
> Det er vist lige et sdant filter han eftersprger:
>
> 6.2.2.2.7. org.archive.crawler.filter.PathologicalPathFilter
>
> Checks if a URI contains a repeated pattern.
>
> This filter checks if a if a pattern is repeated a specific number
> of times. The use is to avoid crawler traps where the server adds
> the same pattern to the requested URI like:
>
> http://host/img/img/img/img....
>
> Returns true if such a pattern is found. Sometimes used on a
> processor but is primarily of use in the exclude section of scopes.
>
>
> Har vi evt. mulighed for at konfigurere sdanne filtre per hstning
> eller globalt svarende til vores eksisterende lokale/globale
> crawlertraps?
>
> mvh
> Tue