ugrás a tartalomhoz

Html oldal adott blokkjának figyelése

kalamona · 2008. Szep. 1. (H), 12.44
Sziasztok!

A megoldandó feladatat, egy rss-el nem rendelkező oldalon levő lista frissüléseinek észlelése, és a friss listaelemek feldolgozása.

Az a megoldás sajnos nem játszik, hogy az oldal készitőjét rávesszük, hogy rss formátumban is publikálja a tartalmat. :)

Szóval két megoldás jutott eszembe:
  • Valamilyen online szolgáltatással generáltatok rss-t a tartalomból.
    (pl.: www.ponyfish.com) Ezzel több baj is van, nem lehet elég jól megadni azt a szekciót ami engem érdekel, csak ritkán frissül, függök egy harmadik féltől...
    De ha ismertek hasonló oldalt, ami jól bevált számotokra, akkor annak is örülök. Még nem vetettem el teljesen ezt az utat.

  • Valamilyen HTML parserrel feldolgozom az oldalt adott időközönként (cronból), lementem a lényeges részeket, eltárolom a legfrissebb bejegyzés dátumát egy fájlba, utána ehhez hasonlítgatva vizsgálom a frissülés tényét.
    Ezt szerintetek hogyan érdemes kivitelezni? Milyen html parsert tudtok ajánlani? (Sose kellett még ilyet használnom.) van jól bevált eszköz erre?


Igazából minden megoldás érdekel. Mit javasoltok?

Köszönöm szépen!
 
1

yahoo pipes

thgab · 2008. Szep. 1. (H), 14.09
Valamilyen online szolgáltatással generáltatok rss-t a tartalomból.

Próbáld ki ezt:
http://pipes.yahoo.com/pipes/
2

Regexp, DOM

attlad · 2008. Szep. 1. (H), 14.56
Leggyorsabban valószínűleg reguláris kifejezésekkel tudnád megoldani. Esetleg a DOM kiterjesztés által szolgáltatott DOMDocument osztály loadHTML* metódusait is használhatod.
3

Valószínűleg regexp elég, és preferálható is az online sz

Fraki · 2008. Szep. 1. (H), 18.31
Valószínűleg regexp elég, és preferálható is az online szolgáltatásokkal szemben.