Autor |
Aktion Rettet die Beiträge |
|
|
|
|
BID = 355445
Mr.Ed Moderator
Beiträge: 36168 Wohnort: Recklinghausen
|
|
Aktueller Stand:
Der Bot knabbert sich momentan durch den August 2005 und hat bislang 1,2GB und ca. 20000 HTML Seiten auf die Platte geworfen.
_________________
-=MR.ED=-
Anfragen bitte ins Forum, nicht per PM, Mail ICQ o.ä. So haben alle was davon und alle können helfen. Entsprechende Anfragen werden ignoriert.
Für Schäden und Folgeschäden an Geräten und/oder Personen übernehme ich keine Haftung.
Die Sicherheits- sowie die VDE Vorschriften sind zu beachten, im Zweifelsfalle grundsätzlich einen Fachmann fragen bzw. die Arbeiten von einer Fachfirma ausführen lassen. |
|
BID = 355453
admin Administrator
Beiträge: 5027 Wohnort: Heilbronn
|
|
Das hört sich ja sehr gut an
Ich werde heute mit der Programmierung des parsers anfangen.
admin
|
|
BID = 355458
Gilb Urgestein
Beiträge: 16262 Wohnort: Gardine (Gardinenhof)
|
Hallo Mr.Ed,
sind da auch die Threads aus der Hausgeräte-Reparatur dabei?
Sammelst Du evtl. sogar "Alles"?
Das wäre zu schön, wenn ich die ganzen Texte nicht noch mal schreiben müsste.
der Gilb
|
BID = 355463
admin Administrator
Beiträge: 5027 Wohnort: Heilbronn
|
Es wird alles, was noch im google-cache ist, gesammelt.
Der Einbau wird aber einige Zeit in Anspruch nehmen. Da gibt es viel zu programmieren.
Für den Einbau der Beiträge "von Hand" sind es zu viele.
admin
|
BID = 355470
Gilb Urgestein
Beiträge: 16262 Wohnort: Gardine (Gardinenhof)
|
Ja, lieber Admin,
die allerallerallerwichtigsten Beiträge (die gepinnten) habe ich schon händisch wieder hergestellt.
Die restlichen schließe ich, zusammen mit dir und der Backup-Software, in mein Abendgebet ein.
Danke vielmals, allen an der Wiederherstellung Beteiligten.
Der Gilb
|
BID = 355621
psiefke Schreibmaschine
Beiträge: 2636
|
Zitat :
Mr.Ed hat am 1 Aug 2006 16:27 geschrieben :
|
Aktueller Stand:
Der Bot knabbert sich momentan durch den August 2005 und hat bislang 1,2GB und ca. 20000 HTML Seiten auf die Platte geworfen.
|
Es ibt also einen bot... ich hätte da nen windows rechner mit 100 Mbit anbindung und noch ne menge freien datentransfer... kann ich dmait irgendwie helfen?
_________________
phil
PS:
Ein Millimeter ist so klein, daß tausend übereinandergestapelt nur einen Meter hoch wären.
|
BID = 355686
perl Ehrenmitglied
Beiträge: 11110,1 Wohnort: Rheinbach
|
Ein paar Beiträge habe ich auch noch, aber ich denke ich warte mit dem Hochladen bis die automatische Reparatur durchgeführt ist. Vielleicht werden die dann garnicht mehr benötigt.
Um allen Seiten unnütze Handarbeit zu ersparen, könnte man vielleicht eine automatisch aktualisierte Liste der noch fehlenden Ids programmieren ?
|
BID = 355690
admin Administrator
Beiträge: 5027 Wohnort: Heilbronn
|
Zitat :
perl hat am 2 Aug 2006 10:22 geschrieben :
|
...
Um allen Seiten unnütze Handarbeit zu ersparen, könnte man vielleicht eine automatisch aktualisierte Liste der noch fehlenden Ids programmieren ?
|
Kann ich machen, wenn die gefundenen Beiträge hochgeladen sind.
Baldur
|
BID = 355795
Mista X Schreibmaschine
Beiträge: 1064 Wohnort: Bergisch Gladbach
|
Zitat :
| Aktueller Stand:
Der Bot knabbert sich momentan durch den August 2005 und hat bislang 1,2GB und ca. 20000 HTML Seiten auf die Platte geworfen. |
Ich hab DSL 2000 und nochn paar GB auf meiner Platte frei. Flatrate ist natürlich vorhanden. Kann ich da helfen?
|
BID = 355810
Mr.Ed Moderator
Beiträge: 36168 Wohnort: Recklinghausen
|
So, der Bot hat sich durchgeknabbert. Bei einigen Seiten gab es Timeoutfehler, diese Tage lasse ich gerade nochmal komplett durchlaufen. Sicher ist sicher.
Ich habe tageweise über "erstellt" und Datum gesucht und so ca. 1,7GB und über 28500 Dateien gefunden.
@gilb: Ja, da war auch was von dir bei
Alles wird man so nicht retten können aber einen Teil auf alle Fälle
_________________
-=MR.ED=-
Anfragen bitte ins Forum, nicht per PM, Mail ICQ o.ä. So haben alle was davon und alle können helfen. Entsprechende Anfragen werden ignoriert.
Für Schäden und Folgeschäden an Geräten und/oder Personen übernehme ich keine Haftung.
Die Sicherheits- sowie die VDE Vorschriften sind zu beachten, im Zweifelsfalle grundsätzlich einen Fachmann fragen bzw. die Arbeiten von einer Fachfirma ausführen lassen.
|
BID = 355815
high_speed Schreibmaschine
Beiträge: 2073
|
Wenn psiefke noch mal rübersuchen sollte, sollte er lieber
seinen Bot ein bisschen zügeln, nicht, dass ihn Google
rausschmeißt und ein lebenslanges Suchverbot erteilt.
Mit 100Mbit/s auf die Google-Server losgehen, das finden die
bestimmt nicht mehr witzig.
@Mr.Ed
Hast du die Timeoutfehlern in eine Log-Datei?
Schau auch noch stichprobenartig über die Dateien.
Nicht dass sie wegen den vielen Anfragen teilweise Hinweise
anstatt dem gewollten Seiten gesendet haben.
So von wegen:
Sie belästigen gerade hier unsere Server. ..
MfG
Holger
_________________
George Orwell 1984 ist nichts gegen heute.
Der Überwachungsstaat ist schon da!
Leider lernen die Menschen nicht aus der Geschichte,
ansonsten würde sie sich nicht andauernd wiederholen.
|
BID = 355841
Gilb Urgestein
Beiträge: 16262 Wohnort: Gardine (Gardinenhof)
|
@ Mr.Ed: Na prima, dann habe ich nicht alles in den "Wind" geschrieben.
@ High_speed: Phil (psiefke) meint sicher seine LAN-Verbindung, vom PC zum Router. Oder kommt er direkt an die Back-Bone? (Heißt doch so?)
Euch Allen Dank für die bisherige Arbeit.
Ich kann mir allerdings noch nicht so richtig vorstellen, wie man aus den HTML-Seiten die einzelnen Beiträge, mit Bildern und Links, herauspicken und wieder in die Forendatenbank einsortieren kann.
Wünsche aber "Gutes Gelingen"
Der Gilb
|
BID = 355854
high_speed Schreibmaschine
Beiträge: 2073
|
Hallo Gilb
Das funktioniert schon. Schau dir mal eine html-Datei an.
Das Programm muss nach bestimmten Merkmalen in den Dateien
suchen, mit denen es die einzelnen Beiträge trennen kann.
Die Links auf Bilder müssen dann auch noch extrahiert werden.
Der größte Aufwand geht wohl auf die Smilies und
Formatierungen drauf.
Da wird Baldur wohl eine Weile dran programmieren müssen.
Warum soll Phil nicht einen Zugriff auf ein 100Mbit/s
Internetverbindung haben? Vielleicht braucht er den Anschluss
für seine Firma. In der Veranstaltungstechnik müssen doch
bestimmt große Datenmengen übertragen werden.
Videos und ..
MfG
Holger
_________________
George Orwell 1984 ist nichts gegen heute.
Der Überwachungsstaat ist schon da!
Leider lernen die Menschen nicht aus der Geschichte,
ansonsten würde sie sich nicht andauernd wiederholen.
|
BID = 355866
Mr.Ed Moderator
Beiträge: 36168 Wohnort: Recklinghausen
|
Zitat :
|
@Mr.Ed
Hast du die Timeoutfehlern in eine Log-Datei? |
Nein, aber die Dateien werden als unvollständige .part Dateien gespeichert. Meistens enthalten die dann nur den Hinweistext von Google und das Elektronikforum Logo.
Aus irgendeinem Grund tritt das gleiche Problem aber bei teilweise den gleichen Seiten heute wieder auf.
Manuell im Browser sind die Seiten aber abrufbar.
Ich werde das ganze heute Nacht wohl wiederholen. Momentan bringt das scheinbar nichts.
Zitat :
| So von wegen:
Sie belästigen gerade hier unsere Server. .. |
Die Seiten die er geladen hat enthalten auch sinnvollen Inhalt.
_________________
-=MR.ED=-
Anfragen bitte ins Forum, nicht per PM, Mail ICQ o.ä. So haben alle was davon und alle können helfen. Entsprechende Anfragen werden ignoriert.
Für Schäden und Folgeschäden an Geräten und/oder Personen übernehme ich keine Haftung.
Die Sicherheits- sowie die VDE Vorschriften sind zu beachten, im Zweifelsfalle grundsätzlich einen Fachmann fragen bzw. die Arbeiten von einer Fachfirma ausführen lassen.
|
BID = 355878
admin Administrator
Beiträge: 5027 Wohnort: Heilbronn
|
@Mr.Ed
kannst Du mir mal so eine unvollständige Datei per Mail schicken ?
|