ugrás a tartalomhoz

ETag vagy Last-Modified header kikényszerítése, lehetséges?

randomly · 2007. Szep. 22. (Szo), 18.49
Sziasztok!

Van egy-két oldal amit figyelni szeretnék de nem adnak sem ETAg sem Last-Modified választ.
Le lehet ezt kérni valahogyan?

Sajnos PHPSESSION-t használ és a md5 érték változik miatta.
A méretét pedig hiába figyelem általában csak egy dátum változik pl.árlista_2007_08_20.xls > árlista_2007_09_20.xls

Ja és persze az Expires: Thu, 19 Nov 1981 08:52:00 GMT mindig.

Köszi Rand
 
1

Egy oldal figyelése

vbence · 2007. Szep. 22. (Szo), 19.07
Ha egyetlen oldalt figyelsz készíthetsz specifikus regex filtereket például hogy a sessiont eltüntesd az URLekből. Vagy figyelheted például egyetlen DIV tartalmát, aminek a változása fontos neked.
2

regex rosszul hangzik.

randomly · 2007. Szep. 22. (Szo), 23.00
Szia!

RegEx az rosszul hangzik. (nekem)
Sajnos nekem az nagyon bonyolult, el képzelni sem tudom hogyan kezdjem megírni.

Egyik oldalnál Én gyártok md5-el ETag-ot.
A másiknál meg küldök egy (falsh) PHPSESSION-t és így gyártok md5 bélyeget.
(Ja itt még belépni is kéne, mert a http://user:password##kukac##www.domain.hu nem megy.)

Wget jó lehet? (Nem mintha ahhoz is értenék, de katalógus adatokat azzal töltenek le rólam.)

De gondoltam csak van valami header ami lekéri.
Csak félek hogy nincs.

Köszi rand
3

CURL

vbence · 2007. Szep. 23. (V), 09.04
Ha a klienst PHP-ben írod, akkor a curl funkciókkal le tudsz szívni jelszóvédett oldalakat (egyszerű HTTP autentikáció), sőt https-t is. Kinyírhetod a SESSION azonosítókat kézzel is (strpos + substr), de regexel sokkal egyszerübb. Ha eddig nem tanultad meg itt az alkalom. Vagy célul tűzted ki, hogy enélkül éld le az életedet?

Ha saját (formon keresztül működő) login mechanizmus van emulálnod kell egy böngészőt. Ez picit bonyolultabb, kell figyelned és küldened a cookie-keat, de nem atomfizika.

Itt egy olvasmányos leírás is:
http://vbence.web.elte.hu/regex_leiras.html
5

Köszi a segítséget

randomly · 2007. Szep. 24. (H), 21.53
Szóval akkor nincs lehetőség elkérni a szervertől.
Na jó, ha nem hát nem.
Remélem majd a html 10 es változatában majd lesz ilyen is. :-)

rand
6

Ha lenne is...

vbence · 2007. Szep. 24. (H), 23.39
Ez egy generált oldal. Téged pedig nem minden változás érdekel, csak amire Te figyelni szeretnél. gondolod, hogy az ETag ezt kitalálja helyetted? :)

Amúgy egy jobb oldal küld Last-Modified headert.
7

Igen, csak a változás érdekel.

randomly · 2007. Szep. 25. (K), 20.01
Szia!

Igen csak a változás érdekel.
Mert utána be kell lépjek, van olyan Captcha vagy mi is amit mr nem akarnák leprogramozni. :-)
És pont jó, mert változott így élesben tudom hogy müködik az egyik.
(El küldök PHPSESSION -t így mindig azt kapom vissza abból md5-tel készítek egy bélyeget? elmentem és azt hasonlítgatom 6 óránként cronnal ütemezve.

És működik, de mennyivel egyszerűbb lenne egy headert figyelni.

És persze nem ad Last-Modifiedet egyik sem.

És persze az Én oldalaim sem, küzdjön mindenki. :-)
(Persze egy jó magyar leírás után lehet adna ... de figyeljem a sablonok dátumait meg a MySQL változásait is ... túl sok munka. :-) )

rand
8

Sablonok nem kellenek

vbence · 2007. Szep. 25. (K), 20.21
A sablonokat nem kell figyelni. Egyrészt azok ritkán változnak (jóeesetben soha), másrészt az nem jelent tartalmi változást. Én a fontosabb elemeket figyelem. Képzelj egy oldalt, amin egy cikk van (ez a fő tartalom). Vanak persze még dobozok amiben a site utolsó 10 cikke van, vagy az utolsó regisztrált user neve, esetlag a mai névnap stb. Ezeknek a változása nem érdekel engem, ezek csak más tartalmakat "reklámoznak" az oldalon.

Az már csak logikázás, de szerintem a gugli is gyakrabban jár oda, ahol csak egy "Not Modified"-ot kap az oldalak 90%-ára, mint ahol újra és újra elküldik neki ugyanazt.
4

wget

decker · 2007. Szep. 23. (V), 09.54
man wget lesz a barátod ;-) `wget http://valahonnan/valamit.ext`