________________________________________ Fra: Jonas Lindberg Frellesen Sendt: 3. februar 2011 10:26 Til: Tue Larsen Emne: SV: ? Heritrix PathologicalPathFilter Hej Tue Jeg tror ikke, at vi har nogle batchjobs, som kan udfre prcis den opgave, men jeg tror ikke, at det vil vre s svrt at lave et sdan batchjob. Hjest 0.5 md, hvilket er inklusiv tests. Med venlig hilsen Jonas -----Oprindelig meddelelse----- Fra: Tue Larsen Sendt: Thursday, February 03, 2011 10:15 AM Til: Jonas Lindberg Frellesen Emne: VS: ? Heritrix PathologicalPathFilter Kan vi genbruge nogle eksisterende batch job til en sdan analyse? mvh Tue ________________________________________ Fra: Bjarne Andersen [bja@statsbiblioteket.dk] Sendt: 3. februar 2011 09:52 Til: Jon Eiriksson; Tue Larsen Cc: Sren Vejrup Carlsen; Christen Hedegaard; Karen Hgsberg Emne: RE: ? Heritrix PathologicalPathFilter Det ville nok vre oplagt at f lavet et lille batchjob der ud af netarkivets CDX-filer (i de skaldte metadata-filer) finder alle de steder hvor der er prcis 3 repetitioner "/img/img/img/" - s kan vi/I jo lave en stikprve p om der er nogle af dem der faktisk er reelt indhold p. Mit umiddelbare gt vil ogs vre at det vil vre meget meget f sider der reelt har noget vi skal have p URL'er med 3 repetitioner. S hvis stikprven kan bekrfte dette kan vi jo stte den ned til 2. mvh - Bjarne Andersen head of Digital Preservation Technology Statsbiblioteket Victor Albecks Vej 1 8000 rhus C Tel: (+45 89462165) Mob: (+45 25662353) CVR/SE 10100682 - EAN 5798000791084 www.statsbiblioteket.dk > -----Original Message----- > From: Jon Eiriksson [mailto:jei@kb.dk] > Sent: Thursday, February 03, 2011 9:11 AM > To: Tue Larsen > Cc: Sren Vejrup Carlsen; Christen Hedegaard; kah@kb.dk; Bjarne > Andersen > Subject: SV: ? Heritrix PathologicalPathFilter > > Kre Tue! > Mange tak. Det er i det mindste meget godt, at erfare, at systemet > arbejder med problemet. > Sprgsmlet er dog nu om vi ikke kan stte denne "max-repetitions" > ned til 2; 2? > Det ser jo alligevel lidt mrkeligt ud med 3 sidestillede > "repetitions" i en URL. Mske kunne vi afprve i batch-vrktjet? > Drmmen er stadigvk "max-repetitions">2 sknt de ikke er > sidestillede i en URL (som selvflgelig ogs skulle afprves fr > den evt. blev taget i brug.) > Hilsen > Jn > > -----Oprindelig meddelelse----- > Fra: Tue Larsen > Sendt: 2. februar 2011 17:44 > Til: Jon Eiriksson > Cc: Sren Vejrup Carlsen; Christen Hedegaard > Emne: VS: ? Heritrix PathologicalPathFilter > > FYI > > Vi bruger allerede PathologicalPathFilter i alle skabeloner: > class="org.archive.crawler.deciderules.PathologicalPathDecideRule"> > 3 > > > Og blokerer alts URL'er med mere end 3 gentagede directory-navne - > som jeg forstr fileteret skal det dog vre lige efter hinanden s > - http://netarkivet.dk/img/img/img/img/test.gif blokeres > - http://netarkivet.dk/img/css/img/css/img/css/img/css/test.gif > blokeres ikke da det er et mnster p 2 directorynavne der gentages > > Jeg kan tage fejl omkring det sidste - jeg kan heller ikke > gennemskue det ud fra manualen hvor eksemplet ogs er > /img/img/img/img/..... > > S - vi bruger det allerede ! > > - > Bjarne > > ________________________________________ > Fra: Tue Larsen [tlr@kb.dk] > Sendt: 2. februar 2011 16:40 > Til: Bjarne Andersen > Emne: ? Heritrix PathologicalPathFilter > > Hej Bjarne > > Har du prvet Heritrix PathologicalPathFilter? > > mvh > Tue > ________________________________________ > Fra: Sren Vejrup Carlsen > Sendt: 2. februar 2011 11:27 > Til: Tue Larsen > Cc: Jon Eiriksson; Christen Hedegaard > Emne: SV: ? Heritrix PathologicalPathFilter > > Hej Tue. > Nej, jeg har ikke prvet at arbejde med det. > > Men det var nok den feature jeg vidste, at Heritrix havde, p mdet > i gr. > > Vores lokale globale crawler-traps bliver indlagt i en/flere > org.archive.crawler.deciderules.MatchesListRegExpDecideRule(s) > > S hvis man vil benytte PathologicalPathFilter, skal de lgges ind > p forhnd i vores heritrix templates > /Sren > > -----Oprindelig meddelelse----- > Fra: Tue Larsen > Sendt: 2. februar 2011 06:12 > Til: Sren Vejrup Carlsen > Cc: Jon Eiriksson; Christen Hedegaard > Emne: ? Heritrix PathologicalPathFilter > > Hej Sren > > Har du prvet at arbejde med Heritrix > org.archive.crawler.filter.PathologicalPathFilter ? > > > Det er vist lige et sdant filter han eftersprger: > > 6.2.2.2.7. org.archive.crawler.filter.PathologicalPathFilter > > Checks if a URI contains a repeated pattern. > > This filter checks if a if a pattern is repeated a specific number > of times. The use is to avoid crawler traps where the server adds > the same pattern to the requested URI like: > > http://host/img/img/img/img.... > > Returns true if such a pattern is found. Sometimes used on a > processor but is primarily of use in the exclude section of scopes. > > > Har vi evt. mulighed for at konfigurere sdanne filtre per hstning > eller globalt svarende til vores eksisterende lokale/globale > crawlertraps? > > mvh > Tue