[Lugor] Hilfe bei wget mit reject-regex

s.abeln at freenet.de s.abeln at freenet.de
Do Nov 9 10:01:34 CET 2017


pcre2test habe ich bisher noch nicht gekannt. Muss ich mal ausprobieren. 
-----Ursprüngliche Nachricht-----
 Von: "Holger Jakobs" [holger at jakobs.com]
 Gesendet: Do. 09.11.2017 07:12
 An: s.abeln at freenet.de,  linux at lugor.de,  nluug.de at mylinuxtime.de
 Betreff: RE: Re: [Lugor] Hilfe bei wget mit reject-regex

Je nach engine wird geprüft, ob der Ausdruck auf einen Teil der Zeichenkette passt. Dann muss man ggf mit ^ vorn und $ hinten verankern.
 
 Wird auf die gesamte Zeile gematcht, muss man davor oder dahinter beliebiges erlauben. Das geht aber nicht mit einem Wiederholungsfaktor.
 
 Eine beliebige, auch leere Zeichenkette wird dargestellt durch .*
 
 Punkt für beliebig, Stern für beliebig oft.
 

Am 9. November 2017 06:48:11 MEZ schrieb s.abeln at freenet.de:Guten Morge Holger,
 
das Problem ist ja, dass vor und hinter dem regulären Ausdruck noch was steht.
Die 9 stellige Zahl steht teilweise am Anfang oder mittendrin, z.B.
123456789.html
laptop-123456789.jpg
 
Viele Grüße
 
Stefan
 
-----Ursprüngliche Nachricht-----
 Von: "Holger Jakobs" [holger at jakobs.com]
 Gesendet: Mi. 08.11.2017 20:07
 An: linux at lugor.de,  "Stefan Abeln" [s.abeln at freenet.de],  nluug.de at mylinuxtime.de
 Betreff: Re: [Lugor] Hilfe bei wget mit reject-regex

Mit einem Wiederholungsfaktor (?, *, +) darf ein regex niemals beginnen. Was sollte er auch wiederholen?
 

Am 8. November 2017 19:30:34 MEZ schrieb Stefan Abeln :Hi,

ich brauche mal eure Hilfe.
Mit wget möchte ich eine Webseite lokal spigeln, aber einige Dateien
möchte ich nicht runterladen.
Das soll ja mit reject-regex gehen, ich habe es aber nicht hinbekommen.
Die Dateien, die ich nicht herunterladen möchte haben alle eine 9
stellige Zahl in Dateinamen, sind aber in unterschiedlichen Verzeichnissen.
Ich habe schin verschiedenes versucht, allerdings ohne Erfolg:

*[0-9]+*
*[0-9]{9,9}*
*[0..9]+*
*[0..9]{9,9}*
*[0..9][0..9][0..9][0.9][0..9][0..9][0..9][0..9][0..9]*
*[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]*
*[[:digit:]]{9,9}*

Das Ganze mit und ohne Ticks und Quotes.
Der wget-Aufruf sieht dann mit den unterschiedlichen regulären
Ausdrücken zum Beispiel so aus:

wget -k -E -D www.labdoo.org --recursive --reject-regex
'*[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]*'
https://www.labdoo.org/wiki-index/

Kann mir jemand helfen?

Grüße

Stefan

Mailingliste der Linux Usergroup Oberhausen
Rheinland (LUGOR) e. V.
linux at lugor.de
http://mailman.mylinuxtime.de/mailman/listinfo/linux

 -- 
 Holger Jakobs, Mülheimer Str. 133, 51469 Bergisch Gladbach
 * von unterwegs gesendet, daher kurz
 * sent from mobile, therefore short *-----Ursprüngliche Nachricht Ende-----

Schon gewusst?! Neben dem E-Mail-Postfach bietet freenet.de auch eine integrierte Cloud-Lösung mit 2 GB Speicher und das alles komplett kostenfrei.
 https://email.freenet.de/index.html
 -- 
 Holger Jakobs, Mülheimer Str. 133, 51469 Bergisch Gladbach
 * von unterwegs gesendet, daher kurz
 * sent from mobile, therefore short *-----Ursprüngliche Nachricht Ende-----

Sichern Sie sich mit freenet Mail start 20 GB Cloud-Speicher zusätzlich zu Ihrem werbefreien Postfach sowie höchste Sicherheitsstandards.
https://email.freenet.de/start/index.html
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://mailman.mylinuxtime.de/pipermail/linux/attachments/20171109/a573f179/attachment.html>


Mehr Informationen über die Mailingliste linux