Honlapon keresés
Üdv!
Egy olyan PHP-ben írt lapot szeretnék készíteni, ahol megadok egy internet címet pl. http://weblabor.hu és ezen az oldalon egy reguláris kifejezés alapján keres. Az lenne a kérdésem, hogy lehetne az adott oldal forráskódját kinyerni akár egy változóba? Vagy milyen egyéb módon lehet keresni egy másik honlapon?
■ Egy olyan PHP-ben írt lapot szeretnék készíteni, ahol megadok egy internet címet pl. http://weblabor.hu és ezen az oldalon egy reguláris kifejezés alapján keres. Az lenne a kérdésem, hogy lehetne az adott oldal forráskódját kinyerni akár egy változóba? Vagy milyen egyéb módon lehet keresni egy másik honlapon?
lapét
megjegyzés: lehet, hogy az oldal tulajdonosának nem fog tetszeni, megeshet, hogy bannol (főleg, ha nagyon gyorsan kéregeted az oldalakat, és sok oldal van, és ezzel leterheled), szóval nem feltétlenül szerencsés a dolog
ha csak egy lapot töltesz be, akkor értelemszerűen csak azon belül keres a regexped, ha fa-bejárás szerűen az összeset, akkor az összessen. érdemes lehet cachelni az adott oldal tartalmát. gyakorlatban elég kemény dolog lesz, mert minden lekérésnél sok beolvasás és esetleg feldolgozás (értsd: lassú)
Spider
Az ilyen robotokra vonatkoznak bizonyos illemszabályok, például két kérés között legalább 30 másodpercnek el kell telnie, nem lenne fair, ha leterhelnéd a szervert annyi kéréssel, amennyi a csövön kifér.
A tényleges keresés már a kész adatbázisban történik, ahol már a kulcsszavakhoz vannak hozzárendelve az oldalak, soksok egyéb statisztikával körítve. Így ha például google-ben keresel nem a pármilliárd oldal szövegében indít el egy plaintext keresést, csak a kulcsszó-adatbázisból bányássza ki a szóba jövő oldalakat.
Egy regex kereséshez az eredeti forrásban kéne keresned. Pár dolgot persze lehetne gyorsítani rajta (például lehetne cache-elni, milyen betűk, betűkombinációk találhatók az oldalon), ha a regex tartalmaz mondjuk A betüt, de az adott fájl nem, akkor megspóroltál egy keresést abban a fájlban. - De mindet egybevéve rengeteg erőforrást igényelne a keresés maga is. Arrólnem is beszélve, hogy a spidernek rengeteg oldalt kéne beindexelnie.
Olyan formában tudnám elképzelni, hogy beírod a regex-edet és a "weblabor.hu" -t. Először keres a már beindexelt lapok között. Ha nincs beindelve semmi a weblabor.hu-ról megkapja a sider az url-t és beilleszti az ütembtervébe. Aztán mondjuk 10-20 óra múlva, amikor van már pár találat kap egy mail értesítőt a felhasználó, hogy rendelkezésre áll X darab találata. A következő kereséskor már rendelkezésre áll az indexben egy csomó weblaboros lap tartalma, tehát ott lehet, hogy azonnal lesz találat.
thx
Kooperáció
lehet, hogy érdemes lenne akkor leülni beszélgetni az oldal tulajdonosaival, hátha valamilyen módon hozzáférsz a háttéradatbázishoz, amiben jóval hatékonyabban tudsz keresni.
J
talán
API
jogosultság