[Lugor] Hilfe bei wget mit reject-regex

s.abeln at freenet.de s.abeln at freenet.de
Do Nov 9 10:00:45 CET 2017


Ich weiss leider nicht, wie wget da tickt.
Die Dateien, die ich nicht haben möchte stehen leider auch in unterschiedlichen Pfaden, sa doss ich da auch keine Vereinfachung des Suchmusters vornehmen kann.
 
-----Ursprüngliche Nachricht-----
 Von: "Holger Jakobs" [holger at jakobs.com]
 Gesendet: Do. 09.11.2017 07:12
 An: s.abeln at freenet.de,  linux at lugor.de,  nluug.de at mylinuxtime.de
 Betreff: RE: Re: [Lugor] Hilfe bei wget mit reject-regex

Je nach engine wird geprüft, ob der Ausdruck auf einen Teil der Zeichenkette passt. Dann muss man ggf mit ^ vorn und $ hinten verankern.
 
 Wird auf die gesamte Zeile gematcht, muss man davor oder dahinter beliebiges erlauben. Das geht aber nicht mit einem Wiederholungsfaktor.
 
 Eine beliebige, auch leere Zeichenkette wird dargestellt durch .*
 
 Punkt für beliebig, Stern für beliebig oft.
 

Am 9. November 2017 06:48:11 MEZ schrieb s.abeln at freenet.de:Guten Morge Holger,
 
das Problem ist ja, dass vor und hinter dem regulären Ausdruck noch was steht.
Die 9 stellige Zahl steht teilweise am Anfang oder mittendrin, z.B.
123456789.html
laptop-123456789.jpg
 
Viele Grüße
 
Stefan
 
-----Ursprüngliche Nachricht-----
 Von: "Holger Jakobs" [holger at jakobs.com]
 Gesendet: Mi. 08.11.2017 20:07
 An: linux at lugor.de,  "Stefan Abeln" [s.abeln at freenet.de],  nluug.de at mylinuxtime.de
 Betreff: Re: [Lugor] Hilfe bei wget mit reject-regex

Mit einem Wiederholungsfaktor (?, *, +) darf ein regex niemals beginnen. Was sollte er auch wiederholen?
 

Am 8. November 2017 19:30:34 MEZ schrieb Stefan Abeln :Hi,

ich brauche mal eure Hilfe.
Mit wget möchte ich eine Webseite lokal spigeln, aber einige Dateien
möchte ich nicht runterladen.
Das soll ja mit reject-regex gehen, ich habe es aber nicht hinbekommen.
Die Dateien, die ich nicht herunterladen möchte haben alle eine 9
stellige Zahl in Dateinamen, sind aber in unterschiedlichen Verzeichnissen.
Ich habe schin verschiedenes versucht, allerdings ohne Erfolg:

*[0-9]+*
*[0-9]{9,9}*
*[0..9]+*
*[0..9]{9,9}*
*[0..9][0..9][0..9][0.9][0..9][0..9][0..9][0..9][0..9]*
*[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]*
*[[:digit:]]{9,9}*

Das Ganze mit und ohne Ticks und Quotes.
Der wget-Aufruf sieht dann mit den unterschiedlichen regulären
Ausdrücken zum Beispiel so aus:

wget -k -E -D www.labdoo.org --recursive --reject-regex
'*[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]*'
https://www.labdoo.org/wiki-index/

Kann mir jemand helfen?

Grüße

Stefan

Mailingliste der Linux Usergroup Oberhausen
Rheinland (LUGOR) e. V.
linux at lugor.de
http://mailman.mylinuxtime.de/mailman/listinfo/linux

 -- 
 Holger Jakobs, Mülheimer Str. 133, 51469 Bergisch Gladbach
 * von unterwegs gesendet, daher kurz
 * sent from mobile, therefore short *-----Ursprüngliche Nachricht Ende-----

Schon gewusst?! Neben dem E-Mail-Postfach bietet freenet.de auch eine integrierte Cloud-Lösung mit 2 GB Speicher und das alles komplett kostenfrei.
 https://email.freenet.de/index.html
 -- 
 Holger Jakobs, Mülheimer Str. 133, 51469 Bergisch Gladbach
 * von unterwegs gesendet, daher kurz
 * sent from mobile, therefore short *-----Ursprüngliche Nachricht Ende-----

Schon gewusst?! Neben dem E-Mail-Postfach bietet freenet.de auch eine integrierte Cloud-Lösung mit 2 GB Speicher und das alles komplett kostenfrei.
https://email.freenet.de/index.html
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <http://mailman.mylinuxtime.de/pipermail/linux/attachments/20171109/7e887225/attachment.html>


Mehr Informationen über die Mailingliste linux