Knightmare: A DevOps Cautionary Tale
Hogyan vitte az automatizálás hiánya negyvenöt perc alatt csődbe az Egyesült Államok legnagyobb tőzsdei kereskedőjét
■ H | K | Sze | Cs | P | Szo | V |
---|---|---|---|---|---|---|
24 | 25 | 26 | 27 | 28 | 1 | 2 |
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 | 1 | 2 | 3 | 4 | 5 | 6 |
Tanulságos. :D Nem mindegy,
Igaz, de itt nem a
Ja én is pontosan így
Szórakoztató tud lenni
Eszembe jutott róla egy másik
Itt azért elég korrekten
Az nem teljesen tiszta, hogy
Én sem mondtam, hogy a
Klasszikus story. Elég nagyot
Nem hiszem, hogy a Knight blamája óta bárki is kézzel telepítene pénzügyi rendszereket. Főleg, hogy most már (azt hiszem idén valamikortól kötelező) meg kell tudni mondania a bankoknak és kereskedőknek, hogy mikor mit telepítettek az éles rendszereikre.
Ami a legmeglepőbb a Knight storyjában, hogy nem tudták leállítani a programot, amit ők telepítettek. Azt én valószínűbbnek tartom, hogy a jelenlévők közül senki nem merte azt mondani, hogy lőjük le, vagy nem ismerték fel időben mi a baj. Hogy nem volt olyan a közelben, akinek joga lett volna lekillezni a programo(ka)t, az azért elég meredeken hangzik. Ezeken a helyeken elég komoly reakcióidejű és rendkívül tapasztalt kollégák szoktak dolgozni az üzemeltetésen, akikre a bepánikolás se túl jellemző. Ha ég körülöttük az épület, akkor se megy 80 fölé a pulzusuk :) És nem szokták csak úgy felügyelet nélkül hagyni ezeket a rendszereket. Már csak azért sem, mert ezekbe az algoritmusokba időnként bele kellhet tudni nyúlni menet közben is. Olyan admin felületük van, mint egy Boeing pilótafülkéje :) Persze lehet a Knight kivétel volt ezekben, de azért nem hiszem. Mindezektől függetlenül nagyon csúnyán tökön lőtték magukat, bárhogy is csinálták.
Automate as much as is reasonable.
Ezeket a mondatokat vérrel írták :) Nálunk szerencsére eléggé adnak erre. Soklépcsős automata, és kézi ellenőrzés van beépítve, a dev környezetek után 5 másikon megy keresztül a telepítés prod előtt, van rollback forgatókönyv és rollback tesztelés, realtime monitoring stb, amik azért elég nagy biztonságot adnak. De a bugok olyanok, hogy szeretik kicselezni a védelmi rendszereket. A rendszert igazán értő szakik nélkülözhetetlenek, akik egy warningra is ráharapnak, ha az gyanús. Ezért is ennyire hihetetlen, hogy nem tudták lelőni időben a Knightnál a rendszert.
Igen, én is azért
Amikor eredetileg írtam ezt a választ, rosszul értelmeztem a történéseket. Tüzetesen újraolvasva tényleg az tűnik az egyetlen magyarázatnak, hogy senki nem merte vállalni a rendszer teljes lekapcsolását, csak amikor már késő volt.