ugrás a tartalomhoz

'Spam' észlelése

Velias9 · 2008. Aug. 11. (H), 19.25
Sziasztok!

Azt szeretném megkérdezni, hogy mi alapján határozzák meg az e-mail szolgáltatók programjai, hogy az adott levél 'Spam'-e, vagy nem? Mik a 'Spam'-ek jellemzői? Tudtok valami (lehetőleg magyar) oldalt evvel kapcsolatban?

Előre is köszönök minden segítséget!
 
1

Sokféle szűrő

vbence · 2008. Aug. 11. (H), 20.53
Ezerféle szűrő létezik. Általában a módszer az üzenet tokenizálásán alapszik, azaz apró információkra bontásán. Logikusan olyanok, mint:
- van-e teljes név a To mezőben, vagy csak e-mail
- az üzenet hány százaléka HTML tag, milyen tag-ek szerepelnek benne
- szerepel-e link az üzenetben
- milyen hibák szerepelnek az üzenetben (hibás karakterkódolás, szükségtelen whitespace stb.)
- milyen szavak szerepelnek az üzenet szövegében (viagra, buy stb...)

Minden egyes szempont más-más arányban esik latba, melyik többé, melyik kevésbé. Léteznek tanulni képes szűrők, amik képesek finomhangolni magukat (ezen szempontok súlyozását).

Léteznek kollaboratív módszerek, amik összefogják sok szűrő intelligenciáját. Léteznek feketelisták, amire felkerülnek a sok spamet küldő gépek ip címei (subnetjei), és mindenki profitálhat a kollektív tudásból.

Nagyjából így.
2

Nem egyszerű téma

tolmi · 2008. Aug. 11. (H), 21.22
Nem éppen egyszerűt kérdeztél. Számos matematikai módszer van amelyet okosan kombinálva érik el ezek a programok a céljukat (de mindben közös, hogy a mesterséges intelligencia egy bizonyos területét érintik: gépi tanulás). A legismertebb ilyen algoritmus a Bayesian algoritmus, de használnak neurális hálókat és sok egyéb statisztikai és valószínüségszámítási alapokon nyugvó algoritmust is. A téma vaskos és relatíve kevés jó anyag van sajnos hozzá, azok közül is sok megkövetel bizonyos előképzettséget. De majd megmondják itt mások ha tudnak jó és közérthető anyagot a témához. ;)

Egyébként SJ kollega blogja tartalmaz sok okosságot magyarul, valamint írt is egy könyvet, állítólag jó bár én még nem olvastam.
3

Azt hiszem ezekkel már megleszek.

Velias9 · 2008. Aug. 12. (K), 15.36
Minden köszönök!