ugrás a tartalomhoz

Archívum - Dec 9, 2018

logbányászat manuálisan

mind1 valami név · 2018. Dec. 9. (V), 22.16
Hátha itt valaki... :)
Adott egy k.nagy logfile (~3millió sor)
Szeretném kiválogatni belőle az ismétlődő sorokat, hogy ha ránézek a logra, azokkal ne kelljen foglalkoznom.

Elvi elképzelésem van, de a mennyiség miatt attól tartok, előbb török fel brute force-szal egy sha256-os hash-sel kódolt jelszót, mint amennyi idő alatt ebből eredmény lesz. :)

Elképzelés 1: cat journal.txt | sort | uniq -c | sort -n - az eredményből a 3-nál több ismétlődést tartalmazó sorok mehetnek a szűrőbe, ezek jó eséllyel rendszeresen előfordulnak. Aha... csak az a baj, hogy a sorok többségében van process id, eszköznév, valami random sorszám, epoch time stb.
Manuálisan kb. 700ezerre sikerült redukálni a sorok számát, a többi mind olyan, hogy valami lényegtelen változót tartalmaz.
Például (kiragadott példa, totál más eltérések vannak más típusú soroknál):
freshclam[998]: daily.cld updated (version: 24258, sigs: 1836466, f-level: 63, builder: neo)
freshclam[998]: daily.cld updated (version: 24259, sigs: 1836842, f-level: 63, builder: neo)

Itt pl. az a két verziószámféleség tér el, de előfordulhat a freshclam melletti pid változása is.
Innen jön az
Elképzelés 2:
Szavakra bontom a sorokat, eldobálom belőle a szeparátorokat és így hasonlítom össze őket... aham... persze... de milyen sorokat? Minden sort a többi három millióval? Hány hétig futna? :D

Hogy lehetne ezt kulturáltan megoldani?
Sortolni annyira nem tudom, mert mi legyen a kulcs, mikor fogalmam sincs, hol van a sorokban olyan változó, amit nyugodtan eldobhatok?
(most ez így hirtelen felindulásból íródott, könnyen lehet, hogy reggelre rájövök, mit hagytam figyelmen kívül. :) )

-----------------
Update: a fentiek előzménye, hogy a routerem logjait is őrizgetem, néha ellenőrzöm.

Milyennek kell lenni egy jó főnöknek?

inf · 2018. Dec. 9. (V), 09.10
Ilyen létezik? link :o
Mit gondoltok milyennek kell lennie egy jó főnöknek?