Webcrawler & PHP

pheep · 21. November 2006, 21:42

Hallo zusammen,

Ich würde mir gerne eine Art WebCrawler scripten. Sowas änlichen habe ich mir schon mal gebastelt aber möchte gerne noch von euch ein paar infos zu diesem thema erfahren.

also der crawler, sucht speziell definierte seiten nach updates (einträge verschiedener art). damit der crawler merkt wann wieder was neues ist, zähle ich die bytes der anwesenden daten (indem ich die ausgabe mittels "Output Controls" Puffere & abspeichere) und vergleiche sie mit älteren daten. (Crawler ist 1 x pro 24h aktiviert)

Leider finde ich diese Art von Überprüfung ein bisschen "beschissen" da wiederum ein eintrag auch kleiner ausgehen kann wie ein anderer. eine andere lösung wäre das eintragsdatum, sofern vorhanden zu benutzen. aber wenn das auch nicht vorhanden ist ? gibt es eventuell ein möglichkeit eine aktualisierung auf anderen wegen herauszufinden ?

herzlichen dank im voraus

nachtrag:
dieser crawler dient nicht für contentnapping oder änliches!

SoMeGuY · 21. November 2006, 23:27

Gibt es nicht eine Angabe im HTTP-Header die das Datum der letzten Modifikation angibt? Ich fürchte, aufgrund von dynamsichen Websites wirst du kaum eine bessere Lösung finden als sie mit alten Versionen zu vergleichen (Bits zählen o.ä.).

P.S. PHP halte ich als Sprache dafür zwar bequem aber unangebracht.

pheep · 22. November 2006, 17:48

das php für sowas nicht gerade gut ist, ist klar

aber muss ja nicht ein google crawler werden.
aber, danke für deine infos.

Nachtrag:
Mir ist gerade eben eine neue Idee für die Überprüfung auf Updates in den Sinn gekommen. Warum vergleicht man nicht einfach den Quellcode mit dem älteren ? :roll:

Torben Brodt · 22. November 2006, 20:49

Weil das viel mehr performance kostet

Zeichen zählen halte ich für eine gute Idee und einmal musst du den Text zur Content Analyse sowieso..

Akkarin · 1. September 2009, 18:52

Also einen crawler in PHP gibt es bereits: hier

Wenn du weiterhin selber etwas basteln willst solltest du dir das mal ansehen

MfG Akkarin

PS. Krieg ich ne belohnung fürs ausgraben? xD

Webcrawler & PHP

Webcrawler & PHP

Teilen

Benutzer online 1

Tags