Hallo zusammen,
Ich würde mir gerne eine Art WebCrawler scripten. Sowas änlichen habe ich mir schon mal gebastelt aber möchte gerne noch von euch ein paar infos zu diesem thema erfahren.
also der crawler, sucht speziell definierte seiten nach updates (einträge verschiedener art). damit der crawler merkt wann wieder was neues ist, zähle ich die bytes der anwesenden daten (indem ich die ausgabe mittels "Output Controls" Puffere & abspeichere) und vergleiche sie mit älteren daten. (Crawler ist 1 x pro 24h aktiviert)
Leider finde ich diese Art von Überprüfung ein bisschen "beschissen" da wiederum ein eintrag auch kleiner ausgehen kann wie ein anderer. eine andere lösung wäre das eintragsdatum, sofern vorhanden zu benutzen. aber wenn das auch nicht vorhanden ist ? gibt es eventuell ein möglichkeit eine aktualisierung auf anderen wegen herauszufinden ?
herzlichen dank im voraus
nachtrag:
dieser crawler dient nicht für contentnapping oder änliches!
Ich würde mir gerne eine Art WebCrawler scripten. Sowas änlichen habe ich mir schon mal gebastelt aber möchte gerne noch von euch ein paar infos zu diesem thema erfahren.
also der crawler, sucht speziell definierte seiten nach updates (einträge verschiedener art). damit der crawler merkt wann wieder was neues ist, zähle ich die bytes der anwesenden daten (indem ich die ausgabe mittels "Output Controls" Puffere & abspeichere) und vergleiche sie mit älteren daten. (Crawler ist 1 x pro 24h aktiviert)
Leider finde ich diese Art von Überprüfung ein bisschen "beschissen" da wiederum ein eintrag auch kleiner ausgehen kann wie ein anderer. eine andere lösung wäre das eintragsdatum, sofern vorhanden zu benutzen. aber wenn das auch nicht vorhanden ist ? gibt es eventuell ein möglichkeit eine aktualisierung auf anderen wegen herauszufinden ?
herzlichen dank im voraus
nachtrag:
dieser crawler dient nicht für contentnapping oder änliches!
by pheep