Knightmare: A DevOps Cautionary Tale
Hogyan vitte az automatizálás hiánya negyvenöt perc alatt csődbe az Egyesült Államok legnagyobb tőzsdei kereskedőjét
■ H | K | Sze | Cs | P | Szo | V |
---|---|---|---|---|---|---|
25 | 26 | 27 | 28 | 29 | 30 | 1 |
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 | 1 | 2 | 3 | 4 | 5 |
Tanulságos. :D Nem mindegy,
Igaz, de itt nem a
Ja én is pontosan így
Szórakoztató tud lenni
Eszembe jutott róla egy másik
Itt azért elég korrekten
Az nem teljesen tiszta, hogy
Én sem mondtam, hogy a
Klasszikus story. Elég nagyot
Nem hiszem, hogy a Knight blamája óta bárki is kézzel telepítene pénzügyi rendszereket. Főleg, hogy most már (azt hiszem idén valamikortól kötelező) meg kell tudni mondania a bankoknak és kereskedőknek, hogy mikor mit telepítettek az éles rendszereikre.
Ami a legmeglepőbb a Knight storyjában, hogy nem tudták leállítani a programot, amit ők telepítettek. Azt én valószínűbbnek tartom, hogy a jelenlévők közül senki nem merte azt mondani, hogy lőjük le, vagy nem ismerték fel időben mi a baj. Hogy nem volt olyan a közelben, akinek joga lett volna lekillezni a programo(ka)t, az azért elég meredeken hangzik. Ezeken a helyeken elég komoly reakcióidejű és rendkívül tapasztalt kollégák szoktak dolgozni az üzemeltetésen, akikre a bepánikolás se túl jellemző. Ha ég körülöttük az épület, akkor se megy 80 fölé a pulzusuk :) És nem szokták csak úgy felügyelet nélkül hagyni ezeket a rendszereket. Már csak azért sem, mert ezekbe az algoritmusokba időnként bele kellhet tudni nyúlni menet közben is. Olyan admin felületük van, mint egy Boeing pilótafülkéje :) Persze lehet a Knight kivétel volt ezekben, de azért nem hiszem. Mindezektől függetlenül nagyon csúnyán tökön lőtték magukat, bárhogy is csinálták.
Automate as much as is reasonable.
Ezeket a mondatokat vérrel írták :) Nálunk szerencsére eléggé adnak erre. Soklépcsős automata, és kézi ellenőrzés van beépítve, a dev környezetek után 5 másikon megy keresztül a telepítés prod előtt, van rollback forgatókönyv és rollback tesztelés, realtime monitoring stb, amik azért elég nagy biztonságot adnak. De a bugok olyanok, hogy szeretik kicselezni a védelmi rendszereket. A rendszert igazán értő szakik nélkülözhetetlenek, akik egy warningra is ráharapnak, ha az gyanús. Ezért is ennyire hihetetlen, hogy nem tudták lelőni időben a Knightnál a rendszert.
Igen, én is azért
Amikor eredetileg írtam ezt a választ, rosszul értelmeztem a történéseket. Tüzetesen újraolvasva tényleg az tűnik az egyetlen magyarázatnak, hogy senki nem merte vállalni a rendszer teljes lekapcsolását, csak amikor már késő volt.