ugrás a tartalomhoz

Spamrobotok azonosítása

Anonymous · 2005. Feb. 25. (P), 14.50
Már másodjára merült fel problémámként, hogy spamrobottal, vagy letöltésvezérlővel látogatnak. Azaz egy robot végigmegy az összes oldalam minden belső linkjén és minden oldalt letölt. Ezzel elég nagy fölösleges forgalmat generál, nagyobb baj, hogy így használhatatlanná válik az oldalak elérési statisztikája (egyes oldalakra semmi, másokra sok belső link mutat). Már több védőrutint beépítettem, persze ezeket is ki lehet tapasztalni és alapvetően nehéz megállapítani egy kérésről, hogy mi a célja.
Kérdésem: meg lehet-e valahol az ilyen spamrobotok/letöltésvezérlők UserAgent stringjeit találni? Úgy azokat már a kód elején elhajthatom a halálba:
if (stristr($USER_AGENT, "valami")) die("szívjál gázt!");
Párat már levadásztam a netről, de még elég hiányos...
Esetleg más ötlet a fenti célra?

Üdv: Thom.
 
1

Spamrobotok azonosítása

Anonymous · 2005. Feb. 25. (P), 15.11
Log mit ír? Egyébként nem hülyék ők sem, szokványos böngészőnek tüntetik fel a keresőt.
3

nem férek hozzá

Anonymous · 2005. Feb. 25. (P), 15.25
A szerverlog-hoz nem férek hozzá.
Nálam a tünet a napi össz elérés extrém növekedése, azonkívül minden oldal utolsó 20 látogató IP-t rögzítem, itt egy IP gyakori előfordulása rövid idő intervallumon belül több oldalon.
Nehézség, hogy ha nem kapom el időben az eseményt ezek az IP-k a nap folyamán felülíródnak.
Pár UserAgent stringrészt már azonosítottam, ezekre szűrök:
GetRight, WebStripper, WebCopier...
Ilyeneket keresek még.

nem hülyék ők sem
Persze hogy nem. De én meg nem fogok ölbe tett kézzel ülni, legalább dolgozzanak meg.
Pl. egy másik rutin figyeli az egy IP-ről túl gyakran érkező kéréseket. Ha valaki huzamosan több oldalt kér le másodpercenként, az szerintem nem szokványos használat - ezt is blokkolom.

Üdv: Thom
5

Ha már logolsz

Poetro · 2005. Feb. 25. (P), 16.10
Ha már úgyis logolsz, akkor érdemes lehet vizsgálni, hogy ha egy másodpercen belül mondjuk 4-5 oldalt néz meg egy IP, akkor már gyanús lehet, és egyszerűen dobsz neki mindig egy 404-es error-t minden további oldalra, amit 1 MPen belül akar nézni. Ekkor egy idő után gondolom feladja a küzdelmet :D
Különben az általad említett USER_AGENT-ek nem spammerek, hanem oldal letöltő programok. Pl egy időben én is használtam GetRight-ot.
--------
Poetro
6

ez már megvan..

Anonymous · 2005. Feb. 25. (P), 16.22
Ha már úgyis logolsz, akkor érdemes lehet vizsgálni...
Fentebb írtam, hogy a rutin már létezik. Ha a kliens gyanús, akkor szigorúan megfenyegetem a mutatóujjammal és felírom a noteszomba egy napra. ( = blokkolom az IP-jét és csinálok még pár huncutságot vele ;-)
Ekkor egy idő után gondolom feladja a küzdelmet
Ezt remélem én is. A jelzett rutin paraméterei (időintervallum...) meg állíthatók, úgyhogy mindig újra ki kell tapasztalnia. Hmm... Én nem látom őt, de ő sem látja, mi működik. Ez a róka-fogta-csuka esete.

Üdv: Thom
7

nem spammerek

Anonymous · 2005. Feb. 25. (P), 16.31
Különben az általad említett USER_AGENT-ek nem spammerek, hanem oldal letöltő programok.
A statisztikámat akkor is szétk**ák, tehát ez nálam nemkívánatos tevékenység. Nekem ez fáj, nem az, hogy letöltik - örülök, hogy figyelemre méltónak tartják azt, amit összehordtam. A stat beírásnál meg már végképp nem tudom az ilyeneket figyelmen kívül hagyni. (ez az előző válaszból kimaradt)
Lehet, hogy pontatlan volt a témanyitó cím. Akkor a letöltő progikról is szó van.
Üdv: Thom
10

tabos módi

Jano · 2005. Ápr. 13. (Sze), 01.46
Arra azért érdemes gondolni, nem-e véletlenül egy füleket használó böngészővel netező látogatő nyitja szépen egymás mellé a linkeket! Ekkor néhány mp-en belül is lehet sok lekérés, mivel közben nem olvassa el a lapokat, hanem megy tovább az eredetin!
2

Spamrobot

Poetro · 2005. Feb. 25. (P), 15.11
Mondjuk ha én spamrobot lennék, akkor vmi olyan USER_AGENT stringet adnék, ami elég kommon, azaz mondjuk "MSIE 6.0", vagy "Mozilla/5.0". És az ilyenekkel már persze nem sokat lehet tenni. Különben a legtöbb ilyen tényleg így működik.
--------
Poetro
4

azért megfogható az

Anonymous · 2005. Feb. 25. (P), 15.29
Hát én feltúrtam a netet ezmiatt. Úgy tűnik, jónéhány azonosítható az UA. szerint - ezeket is csinálja valaki. Legalább ezekre tudjak szűrni.

Üdv: Thom
8

Kíváncsiságból én is végignéztem az oldalad :P

Anonymous · 2005. Ápr. 12. (K), 14.04
Szia!
Én egy statisztikázóval nézettem végig az oldaladat, mert kíváncsi voltam, hogy mennyi idő modemmel letölteni. Ezt azért tettem, mert a legközelebbi oldalamat úgy szeretném megcsinálni, hogy minél kisebb idő legyen modemmel is, s ezért sok oldalt megnézettem vele. A program neve: Vigos - Website Analyzer. HA érdekel töltsd le, ingyenes, aztán tapasztald ki milyen nyomokat hagy. Engem nem sikerült kitiltani :P. Üdv:
Mr.Tiny
9

Engem nem sikerült kitiltani

Anonymous · 2005. Ápr. 12. (K), 22.23
Engem nem sikerült kitiltani
Gratulálok, ügyes vagy. Vannak aztán, akik ennél tovább mennek, megpróbálják valahogy tönkre is tenni a munkámat. Mindenki láthassa, milyen ügyesek ám ők...
Csakhogy: mivel nem sikerült tökéletesen megoldani a robot letöltések kezelését, módosítottam a koncepción: mivel a fő kifogásom az volt, hogy a statisztikai adatokat tették ezzel kevésbé hitelessé, nem számolom a letöltésvezérlővel lekért oldalakat. Ennyi - ez miatt már nincs is blokkolás. (tehát nem is akart senki kitiltani;)
Időközben arra is rájöttem, hogy nem szerencsés dolog biztonsági problémákat nyilvános webfejlesztői fórumokon kitárgyalni, mert ezt egyesek felhívásnak gondolják kéretlen "tesztelésre"... Ez egy szép magyar virtus - a véleményemet inkább nem írom itt le róla.

Üdv: Thom
17

Félreértettél

Anonymous · 2005. Ápr. 15. (P), 16.52
Teljesen félreértettél. Én nem azért pásztáztam végig az oldalad, hogy ügyes legyek, meg hogy megmutassam, hogy meg tudok nyomni egy gombot, meg nem is azért, hogy teszteljem a programodat. Teljesen más okból, azért, hogy tanuljak. Egy felmérés része volt, s validatorral is megnézettem sok-sok oldallal egyetemben. Üdv:
Tiny
11

Honeypot

Heilig Szabolcs · 2005. Ápr. 13. (Sze), 12.17
Helló!

Elvileg a böngészõ oldaltól érkezõ információkból nem igazán lehet kiszûrni egy spambotot, vagy egy letöltögetõ programot, mivel egy ismeretlen IP cím önmagában nem mond semmit, az UserAgent pedig hamisítható. Valahogy a látogató "oldalnézegetési" karakterisztikájából lehet eldönteni, hogy csak szimpla látogató, vagy valami linkkövetõ bot.

Az kevés, hogy mondjuk 1 percen belül túl sok oldalt nyit meg, mert az lehet egy füles böngészõs illetõ is, ahogy ezt már más említette. Mindenesetre gyanús. Ha emellett csak a html oldalakat nézi és a képek, css hivatkozások, js-ek nem érdeklik, az is gyanús. Egy weblap hazatükrözgetõ illetõ progija értelemszerûen ezeket is leszedi, míg egy spambot nem valószínû. Gyanús lehet az is, ha túlzotan szisztematikus az illetõ, azaz a html-ben talált linkeken kivétel nélkül és sorban végigmegy (itt mondjuk kis halozati igadozasoktol lehet sorrendbeli elteres esetleg). Ezek alapján dönt végül is a logot vadul nézegetõ redszergazda is, hogy kilõje, vagy sem az illetõ IP címet.

De talán az ilyen komoly elemzések helyett hasznosabb, és mindjárt a dolgok elején képes megfogni a downloader és spambot klienseket egy kis honeypot oldal, amin van teszemazt 50 link, amit tuti nem fog egy épeszû ember végigklikkelni. Az oldalt a belépõoldal tetejérõl kell linkelni, vizuálisan nem szembetûnõ módon (de azért a googlebot ne haragudjon meg érte). Erre ha rá is talál valaki, nem valúszínû, hogy az oldalon elhelyezett linkeken végégzongorázzon. Ha mégis megteszi, az egy, a linkeket szisztematikusan töltögetõ bot lesz, azaz lehet is tiltani az illetõt kifele.

Egy dolog bekavarhat, a mozilla oldal-elõ-letöltögetõ mechanizmusa, azaz az oldalra tévedve elkedzdheti a linkeket követni a háttérben, ami alapban kitiltásra vezetne. Ámde ha az oldalra tesz az ember css, js, és képhivatkozásokat is, lehetõleg mindjárt elõre, akor azok letöltése megakadályozhatja a kitiltást. A sima downloaderek viszont így megmaradnak.

Mindezen sorok csak "okosságok", spekulációk, a gyakorlatban sosem próbltam. Mindenesetre akár mûködhet is.
12

Mi értelme?

attlad · 2005. Ápr. 13. (Sze), 13.10
Nem értem mire lenne jó bárkit is kitiltani azért, mert kéréseket küld a webszervernek, hisz annak az a feladata, hogy kiszolgálja ezeket. Gondolom nem olyan mértékű ez, hogy leterhelje a webszervert, vagy az összes sávszélességet felhasználja.

A statisztika használhatatlanná tétele se lehet ok erre, okosan kell feldolgozni a logokat. Bár én nem szoktam használni letöltésvezérlőket, de pl. egy modemes kapcsolattal rendelkezőnek elég hasznos lehet, hogy minimális időt töltse online és offline tudja olvasni az anyagot.

Kitiltani vki azért, mert nem tölti le a képeket vagy túl gyorsan tölti le az oldalakat (ha nem okoz gondot a webszervernek) kb. azzal egyenértékű, mint mikor vki megpróbálja letiltani a jobb egérgombot. Ha vki nem akarja, hogy letöltsék a weboldalát, akkor nem kell elérhetővé tenni az interneten.

Attila
13

De terheli :)

Heilig Szabolcs · 2005. Ápr. 13. (Sze), 17.45
Egyetlen ilyen spambot is korrektül tudja terhelni a szervert, vagy egy em megfelelően konfigolt downloader is. Ugyanis az olyan gyorsan keri az adatokat, ahogy csak a szerveren kifer. Tolja ra a kereseket. Tudod, igy mukodik a DoS tamadas is... Csak ott tobb kliens teszi ezt egyszerre altalaban. De mar egyet is alaposan meg lehet erezni.

Statisztikat "vedeni" tenyleg nem igy erdemes, de a spambotok kiszurese mar olyan feladat, amiert erdemes kicsit butykolni.
14

Terhelés

attlad · 2005. Ápr. 13. (Sze), 18.28
Ha a webszerver terhelése a gond, akkor bár még nem igazán kellett ilyennel foglalkoznom, de pl. lehet cachelni, vagy egyszerűen ha túl sok kérés jön vkitől, akkor ideiglenesen az a kliens késletetéssel kapja a válaszokat (pl. vmi sleep(5) vagy hasonló), szerintem ezek is működhetnek.

Attila
15

Igen, ez már humánusabb

Heilig Szabolcs · 2005. Ápr. 14. (Cs), 16.36
Igen, ez már humánusabb megoldás. Már azokkal szemben, akik jóhiszeműen töltik mint állat az olalt, mert otthon jobb localról nézni. Velük nekem nincs is gondom, de a kérdezőnek az is sok... :)

No de a spam ellen védekezünk a levelezőszervereken, miért ne lehetne a spambotok ellen is tenni valamit. Oda a belassítás kevés. Amit én javasoltam, az egy honeypot szerű megoldás, amihez hasonlatosak léteznek amúgy is. Teszemazt vannak webhelyek, amik csak azért léteznek, hogy nem létező domainek nemlétező mailcímeivel szemeteljék teli a spambotok adatbázisait. Az internetes erőfossások javarésze manapság a spam/antispam háborúra megy el... :(
16

[i]Velük nekem nincs is

Anonymous · 2005. Ápr. 14. (Cs), 21.19
Velük nekem nincs is gondom, de a kérdezőnek az is sok... :)
Ha már megszólítottál: mint fentebb is leírtam, több aggályom is volt:
1. Az elfogyasztott sávszélesség (a letöltés kezelő a linkeket követve sok olyan oldalt leszed, amikre nincs a használójának szüksége, mert nem tartalmaz számára hasznos tartalmat). A letöltött anyag egy része tkp. fölösleges a letöltögetőnek.
2. Szerintem egy szájt gyenge pontjai, hibaüzenetei is kipuhatolhatók GET kérések sokféle kombinációival. Ez akár egy támadás előkészítése is lehet (mint Te is írtad fentebb). Úgy gondolom, nem árt erre is figyelni.
3. Aztán itt van az emlegetett statisztikai adatok. Ez is (és nem csak) egy szempont.
4. Végül a letöltögető lehet spambot is. Akire sok (akár több 1000) felhasználó rábízza a személyes adatait regisztrációkor (a mailcím is ilyen), attól elvárható, hogy törekedjék azok biztonságos megőrzésére. A spambotok elleni védekezés is szükséges lehet - már amennyiben ez lehetséges.
Mint fentebb írtam, nem találtam tökéletes megoldást, talán nincs is ilyen. Mindenesetre az egyedileg fejlesztett, többszintű védelem többet használhat, mint árthat, úgy gondolom.

hogy nem létező domainek nemlétező mailcímeivel szemeteljék teli a spambotok adatbázisait
Én is felhívtam egy ilyenre a figyelmet múltkor. Nem vagyok meggyőződve a hasznosságáról - mindenesetre ártani nem árthat.

Üdv: Thom
18

Pár user-agent

Anonymous · 2005. Aug. 10. (Sze), 10.52
Itt található egykét user-agent:
http://www.psychedelix.com/agents.html

Amúgy ajánlom a robots.txt is a webbotok(szabványos) elkerülésére.
19

<Nincs cím>

Poetro · 2005. Aug. 10. (Sze), 15.50
http://garykeith.garykeith.net/browsers/downloads.asp oldalról letölthető az eddig ismert böngészők kb 98%-a, megjelölve melyik milyen fajta (Spam, Crawler, stb).
--------
Poetro