Netflix' Chaos Monkey And Supply Chain

Jeg havde for nylig en samtale med Carlos Crespo, Chief Operating Officer i Zara-moderselskabet Inditex, hvor han nævnte et softwareværktøj skabt af Netflix for over ti år siden for at institutionalisere systemets modstandsdygtighed. Navnet er fængende, og for forsyningskædeledere, der forsøger at genopfinde deres forsyningsnetværk til turbulente tider, er det uimodståeligt. Og alligevel en GoogleGOOG
søgning efter "forsyningskæde kaos abe" gav nøjagtigt et citat, fra 2012.

Hvorfor anvender vi ikke denne idé til forsyningskædens modstandsdygtighed?

Hvad er Chaos Monkey?

Det er et softwareværktøj, og mere generelt et ingeniørprincip, der tilfældigt lukker dele af et komplekst system ned, hvilket tvinger operatører til at komme sig live. Lidt som en overraskelsesbrandøvelse, men dagligt og på tilfældige måder og steder. Tanken er, at det at blive god til at løse systemproblemer hurtigt er en læringsproces, som bør have gavn af en stejlere læringskurve.

Baghistorien handler om, hvordan Netflix skalerede sin streamingforretning på Amazon Web Services, mens de gik fra at sende dvd'er til kundens dørtrin. Ved første rødme er det en logisk tilgang til systemredundansplanlægning, ligesom hvad du ville forvente fra NASA, men i praksis udnytter den en Netflix kulturel norm for at tillade individuelle bidragydere at løse deres egne problemer. Som kronikeret i "Kaos Engineering” en bog fra 2020 af Casey Rosenthal og Nora Jones, der var banebrydende for praksis hos Netflix, den koger ned til fem principper:

  • Opbyg en hypotese omkring steady-state adfærd
  • Varier begivenheder i den virkelige verden
  • Kør eksperimenter i produktionen
  • Automatiser eksperimenter til at køre kontinuerligt
  • Minimer sprængningsradius

Blandingen af ​​kultur og proces hos Netflix er vigtig, fordi den fremmede og udnyttede en open source-problemløsningstilgang, mens man systematisk drejede hjulet af tilfældige nedlukninger fremskynde læringen på tværs af det udvidede team.

Supply Chain Resilience og Chaos Engineering

Digital transformation i forsyningskæden har været hot i år, fordi det hjælper forsyningskæder med at understøtte nye forretningsmodeller og drive mod bæredygtig drift (se BCG X undersøgelse), men også fordi det lover "resiliens". Desværre koger praktiske anvendelser af digital transformation for forsyningskæderesiliens stadig generelt ned til platforme for bedre "synlighed", understøttet af en masse traditionelle taktikker som lagerbuffring og dual sourcing. Til grund for denne tilgang er endnu et lag af analytisk arbejde på tid til at komme sig af David Simchi-Levi ved MIT, og en bølge af simuleringer ved hjælp af digitale tvillinger. Det lyder alt sammen fantastisk, men det, der mangler, er enhver systematisk måde at eksperimentere med reel forsyningskædefejl for at lære, hvordan man bedst kan komme sig i praksis.

Anvendelse af Chaos Monkey til forsyningskæder

Læger aflægger den hippokratiske ed, før de skærer os op, inklusive det berømte "først gør ingen skade." Ikke en dårlig idé for nogen, der anvender Chaos Monkey-principper på forsyningskæder, hvilket indebærer, at man tilfældigt lukker en rigtig maskine et sted. Dette er ikke-trivielt, og så vidt jeg ved, sker det endnu ikke nogen steder.

  • Det første princip citeret ovenfor siger at fokusere på systemoutput snarere end interne attributter. Bekræft, at systemet fungerer i stedet for at prøve at forstå, hvorfor det virker.
  • Det andet princip siger, at man skal bryde forskellige ting på realistiske måder. Ingen grund til at simulere global termonuklear krig, bare sluk for en kontakt eller tab en ordre og lær, hvad løsningen fungerer bedst.
  • Det tredje princip siger, at det bedste sted at lære er i produktionen. At lære ved at gøre er bedre end at lære ved at simulere – dvs. digitale tvillinger er fantastiske, men de er måske ikke nok til at opbygge en kultur af modstandsdygtighed.
  • Det fjerde princip institutionaliserer kaos-abe-principper, fordi det giver mulighed for at skalere eksperimenteringsprocessen, hvilket bringer dig til en stejlere indlæringskurve. Brug datavidenskab om brandslukning.
  • Til sidst, minimer sprængningsradius. Dette betyder "gør ingen skade" og oversættes til en form for buffering (beholdning, leveringstid, fremskyndet skib) for at beskytte kunderne mod at mærke dit eksperiment. Lær at håndtere kontrollerede eksplosioner.

Man kan argumentere for, at de seneste tre år af Covid, krig, arbejdsuro, og økonomisk uro har været én stor kaos-abe tørløb for alle. Netflix' lektie var, at denne form for krise ikke bare er noget at planlægge efter, men noget at mestre som en permanent kendsgerning i livet.

Den perfekte storm kan aldrig ende, så måske skal vi lære at leve med den.

Kilde: https://www.forbes.com/sites/kevinomarah/2022/12/22/netflix-chaos-monkey-and-supply-chain/