Feldolgozási sorrend?
Ha van egy szövegfájlom (linux kernel logja), amiben sokféle, javarészt ismert szerkezetű sor található, akkor milyen sorrendet szokás követni a feldolgozásban?
Előbb parse-olás és utána a szűrés a már szétszedett, kielemzett sor mezőinek értéke alapján?
Vagy előbb a szűrés regex alapján és attól függően, hogy milyen mintára illeszkedett a sor, mehet a trancsírozás és a mezők értékét csak a különböző feldolgozásokhoz, statisztikákhoz használom fel?
Vagy ennek egy változata, hogy dupla szűrést csinálok: egyet a parse-olás előtt, hogy eldöntsem, milyen sort is kaptam, majd egy másikat ami már a mezők alapján szűr?
■ Előbb parse-olás és utána a szűrés a már szétszedett, kielemzett sor mezőinek értéke alapján?
Vagy előbb a szűrés regex alapján és attól függően, hogy milyen mintára illeszkedett a sor, mehet a trancsírozás és a mezők értékét csak a különböző feldolgozásokhoz, statisztikákhoz használom fel?
Vagy ennek egy változata, hogy dupla szűrést csinálok: egyet a parse-olás előtt, hogy eldöntsem, milyen sort is kaptam, majd egy másikat ami már a mezők alapján szűr?
Talán mindkettő
Mivel - gondolom - statisztikát is szeretnél belőle, parsoláskor, az előszűrés után beszórnám valami db-be, hogy szépen ügyesen lehessen query-zni utána.
A kernel log csak példa,
Viszont ebben van a legtöbb könnyen feldolgozható érdekesség.
Adatbázist hanyagolnám, max. olyan jöhet szóba, ami a memóriában jön létre és a processz végén törlődik, mert tárolni nem akarom.
De asszem, tényleg ez lesz, amit írsz. Bár az előszűrés az (így belegondolva) inkább a parse-olás része, mert a parsernek kell tudni, milyen sorral mit tud kezdeni.
Amivel semmit, azt meg továbbadja 1:1-ben.
A kerdes, hogy mennyire
Változó. Ha maradunk a kernel
De például a tűzfal üzeneteket minimum annyira fel lehet bontani, hogy forrás-, cél IP, protokoll, TCP/UDP esetén a forrás- és célportok stb., ami tapasztalataim szerint elég "költséges" dolog.
De közben járattam rajta a pár megmaradt agysejtemet és oda jutottam, hogy végső soron mindegy: a "váz" lehet olyan, ami csinál előszűrést, parse-olást, szűrést, adatgyűjtést, aztán ahol valóban kell előzetes szűrés, ott legfeljebb duplán dolgozik a gép, ahol meg nem, ott egyszerűen egy üres metódus lesz a szűrés helyén. Oszt jónapot. :)
Bármelyik működhet, feladat
Persze, de nem ez volt a
Én zsigerből előszűrnék ha
Zsigerből én is, de ezen
Előszűrök - de mi alapján? Természetesen minták alapján. De a minták illesztése, ellenőrzése (legalábbis az én elképzeléseim szerint) a parse-olás részhez tartozik. Meg különben is hogy szűrjek, ha nem tudom, hogy mi van egy adott sorban? :)
(nem tudom, érthető-e - tartok tőle, hogy nem annyira, de nem tudom érthetőbben megfogalmazni)
Ha regexel próbálsz parsolni,
A szűréshez használom a