Spamrobotok azonosítása
Már másodjára merült fel problémámként, hogy spamrobottal, vagy letöltésvezérlővel látogatnak. Azaz egy robot végigmegy az összes oldalam minden belső linkjén és minden oldalt letölt. Ezzel elég nagy fölösleges forgalmat generál, nagyobb baj, hogy így használhatatlanná válik az oldalak elérési statisztikája (egyes oldalakra semmi, másokra sok belső link mutat). Már több védőrutint beépítettem, persze ezeket is ki lehet tapasztalni és alapvetően nehéz megállapítani egy kérésről, hogy mi a célja.
Kérdésem: meg lehet-e valahol az ilyen spamrobotok/letöltésvezérlők UserAgent stringjeit találni? Úgy azokat már a kód elején elhajthatom a halálba:
if (stristr($USER_AGENT, "valami")) die("szívjál gázt!");
Párat már levadásztam a netről, de még elég hiányos...
Esetleg más ötlet a fenti célra?
Üdv: Thom.
■ Kérdésem: meg lehet-e valahol az ilyen spamrobotok/letöltésvezérlők UserAgent stringjeit találni? Úgy azokat már a kód elején elhajthatom a halálba:
if (stristr($USER_AGENT, "valami")) die("szívjál gázt!");
Párat már levadásztam a netről, de még elég hiányos...
Esetleg más ötlet a fenti célra?
Üdv: Thom.
Spamrobotok azonosítása
nem férek hozzá
Nálam a tünet a napi össz elérés extrém növekedése, azonkívül minden oldal utolsó 20 látogató IP-t rögzítem, itt egy IP gyakori előfordulása rövid idő intervallumon belül több oldalon.
Nehézség, hogy ha nem kapom el időben az eseményt ezek az IP-k a nap folyamán felülíródnak.
Pár UserAgent stringrészt már azonosítottam, ezekre szűrök:
GetRight, WebStripper, WebCopier...
Ilyeneket keresek még.
nem hülyék ők sem
Persze hogy nem. De én meg nem fogok ölbe tett kézzel ülni, legalább dolgozzanak meg.
Pl. egy másik rutin figyeli az egy IP-ről túl gyakran érkező kéréseket. Ha valaki huzamosan több oldalt kér le másodpercenként, az szerintem nem szokványos használat - ezt is blokkolom.
Üdv: Thom
Ha már logolsz
Különben az általad említett USER_AGENT-ek nem spammerek, hanem oldal letöltő programok. Pl egy időben én is használtam GetRight-ot.
--------
Poetro
ez már megvan..
Fentebb írtam, hogy a rutin már létezik. Ha a kliens gyanús, akkor szigorúan megfenyegetem a mutatóujjammal és felírom a noteszomba egy napra. ( = blokkolom az IP-jét és csinálok még pár huncutságot vele ;-)
Ekkor egy idő után gondolom feladja a küzdelmet
Ezt remélem én is. A jelzett rutin paraméterei (időintervallum...) meg állíthatók, úgyhogy mindig újra ki kell tapasztalnia. Hmm... Én nem látom őt, de ő sem látja, mi működik. Ez a róka-fogta-csuka esete.
Üdv: Thom
nem spammerek
A statisztikámat akkor is szétk**ák, tehát ez nálam nemkívánatos tevékenység. Nekem ez fáj, nem az, hogy letöltik - örülök, hogy figyelemre méltónak tartják azt, amit összehordtam. A stat beírásnál meg már végképp nem tudom az ilyeneket figyelmen kívül hagyni. (ez az előző válaszból kimaradt)
Lehet, hogy pontatlan volt a témanyitó cím. Akkor a letöltő progikról is szó van.
Üdv: Thom
tabos módi
Spamrobot
--------
Poetro
azért megfogható az
Üdv: Thom
Kíváncsiságból én is végignéztem az oldalad :P
Én egy statisztikázóval nézettem végig az oldaladat, mert kíváncsi voltam, hogy mennyi idő modemmel letölteni. Ezt azért tettem, mert a legközelebbi oldalamat úgy szeretném megcsinálni, hogy minél kisebb idő legyen modemmel is, s ezért sok oldalt megnézettem vele. A program neve: Vigos - Website Analyzer. HA érdekel töltsd le, ingyenes, aztán tapasztald ki milyen nyomokat hagy. Engem nem sikerült kitiltani :P. Üdv:
Mr.Tiny
Engem nem sikerült kitiltani
Gratulálok, ügyes vagy. Vannak aztán, akik ennél tovább mennek, megpróbálják valahogy tönkre is tenni a munkámat. Mindenki láthassa, milyen ügyesek ám ők...
Csakhogy: mivel nem sikerült tökéletesen megoldani a robot letöltések kezelését, módosítottam a koncepción: mivel a fő kifogásom az volt, hogy a statisztikai adatokat tették ezzel kevésbé hitelessé, nem számolom a letöltésvezérlővel lekért oldalakat. Ennyi - ez miatt már nincs is blokkolás. (tehát nem is akart senki kitiltani;)
Időközben arra is rájöttem, hogy nem szerencsés dolog biztonsági problémákat nyilvános webfejlesztői fórumokon kitárgyalni, mert ezt egyesek felhívásnak gondolják kéretlen "tesztelésre"... Ez egy szép magyar virtus - a véleményemet inkább nem írom itt le róla.
Üdv: Thom
Félreértettél
Tiny
Honeypot
Elvileg a böngészõ oldaltól érkezõ információkból nem igazán lehet kiszûrni egy spambotot, vagy egy letöltögetõ programot, mivel egy ismeretlen IP cím önmagában nem mond semmit, az UserAgent pedig hamisítható. Valahogy a látogató "oldalnézegetési" karakterisztikájából lehet eldönteni, hogy csak szimpla látogató, vagy valami linkkövetõ bot.
Az kevés, hogy mondjuk 1 percen belül túl sok oldalt nyit meg, mert az lehet egy füles böngészõs illetõ is, ahogy ezt már más említette. Mindenesetre gyanús. Ha emellett csak a html oldalakat nézi és a képek, css hivatkozások, js-ek nem érdeklik, az is gyanús. Egy weblap hazatükrözgetõ illetõ progija értelemszerûen ezeket is leszedi, míg egy spambot nem valószínû. Gyanús lehet az is, ha túlzotan szisztematikus az illetõ, azaz a html-ben talált linkeken kivétel nélkül és sorban végigmegy (itt mondjuk kis halozati igadozasoktol lehet sorrendbeli elteres esetleg). Ezek alapján dönt végül is a logot vadul nézegetõ redszergazda is, hogy kilõje, vagy sem az illetõ IP címet.
De talán az ilyen komoly elemzések helyett hasznosabb, és mindjárt a dolgok elején képes megfogni a downloader és spambot klienseket egy kis honeypot oldal, amin van teszemazt 50 link, amit tuti nem fog egy épeszû ember végigklikkelni. Az oldalt a belépõoldal tetejérõl kell linkelni, vizuálisan nem szembetûnõ módon (de azért a googlebot ne haragudjon meg érte). Erre ha rá is talál valaki, nem valúszínû, hogy az oldalon elhelyezett linkeken végégzongorázzon. Ha mégis megteszi, az egy, a linkeket szisztematikusan töltögetõ bot lesz, azaz lehet is tiltani az illetõt kifele.
Egy dolog bekavarhat, a mozilla oldal-elõ-letöltögetõ mechanizmusa, azaz az oldalra tévedve elkedzdheti a linkeket követni a háttérben, ami alapban kitiltásra vezetne. Ámde ha az oldalra tesz az ember css, js, és képhivatkozásokat is, lehetõleg mindjárt elõre, akor azok letöltése megakadályozhatja a kitiltást. A sima downloaderek viszont így megmaradnak.
Mindezen sorok csak "okosságok", spekulációk, a gyakorlatban sosem próbltam. Mindenesetre akár mûködhet is.
Mi értelme?
A statisztika használhatatlanná tétele se lehet ok erre, okosan kell feldolgozni a logokat. Bár én nem szoktam használni letöltésvezérlőket, de pl. egy modemes kapcsolattal rendelkezőnek elég hasznos lehet, hogy minimális időt töltse online és offline tudja olvasni az anyagot.
Kitiltani vki azért, mert nem tölti le a képeket vagy túl gyorsan tölti le az oldalakat (ha nem okoz gondot a webszervernek) kb. azzal egyenértékű, mint mikor vki megpróbálja letiltani a jobb egérgombot. Ha vki nem akarja, hogy letöltsék a weboldalát, akkor nem kell elérhetővé tenni az interneten.
Attila
De terheli :)
Statisztikat "vedeni" tenyleg nem igy erdemes, de a spambotok kiszurese mar olyan feladat, amiert erdemes kicsit butykolni.
Terhelés
Attila
Igen, ez már humánusabb
No de a spam ellen védekezünk a levelezőszervereken, miért ne lehetne a spambotok ellen is tenni valamit. Oda a belassítás kevés. Amit én javasoltam, az egy honeypot szerű megoldás, amihez hasonlatosak léteznek amúgy is. Teszemazt vannak webhelyek, amik csak azért léteznek, hogy nem létező domainek nemlétező mailcímeivel szemeteljék teli a spambotok adatbázisait. Az internetes erőfossások javarésze manapság a spam/antispam háborúra megy el... :(
[i]Velük nekem nincs is
Ha már megszólítottál: mint fentebb is leírtam, több aggályom is volt:
1. Az elfogyasztott sávszélesség (a letöltés kezelő a linkeket követve sok olyan oldalt leszed, amikre nincs a használójának szüksége, mert nem tartalmaz számára hasznos tartalmat). A letöltött anyag egy része tkp. fölösleges a letöltögetőnek.
2. Szerintem egy szájt gyenge pontjai, hibaüzenetei is kipuhatolhatók GET kérések sokféle kombinációival. Ez akár egy támadás előkészítése is lehet (mint Te is írtad fentebb). Úgy gondolom, nem árt erre is figyelni.
3. Aztán itt van az emlegetett statisztikai adatok. Ez is (és nem csak) egy szempont.
4. Végül a letöltögető lehet spambot is. Akire sok (akár több 1000) felhasználó rábízza a személyes adatait regisztrációkor (a mailcím is ilyen), attól elvárható, hogy törekedjék azok biztonságos megőrzésére. A spambotok elleni védekezés is szükséges lehet - már amennyiben ez lehetséges.
Mint fentebb írtam, nem találtam tökéletes megoldást, talán nincs is ilyen. Mindenesetre az egyedileg fejlesztett, többszintű védelem többet használhat, mint árthat, úgy gondolom.
hogy nem létező domainek nemlétező mailcímeivel szemeteljék teli a spambotok adatbázisait
Én is felhívtam egy ilyenre a figyelmet múltkor. Nem vagyok meggyőződve a hasznosságáról - mindenesetre ártani nem árthat.
Üdv: Thom
Pár user-agent
http://www.psychedelix.com/agents.html
Amúgy ajánlom a robots.txt is a webbotok(szabványos) elkerülésére.
<Nincs cím>
--------
Poetro