Når hele himmelen faller ned

fredag 15. april 2016 av Tormod Nymoen

I forrige uke så vi litt enkelt på en vanlig jobbdag på lab-en. Denne uken ble annerledes.

Vi smilte godt da vi reddet 2 harddisker som lå gjemt for borrebanden i familiens vaskemaskin. Konas klesvaskevaner var en større trussel. Verre var det da et mulitidisksystem med  hostingdata krasjet natt til tirsdag. Et virtuelt system designet for å lagre terrabyte med data, som aldri skulle svikte.

Hos oss begynner som sagt alle saker med en analyse. Første steg er å avklare om det er mulig å få lest harddiskene vi får tilsendt. Hvis ingeniørene finner mekaniske feil må disse fikses, før man begynner å lese ut data. I tradisjonelle disker er det relativt vanlig med et hodekrasj, at selve lesehodene har falt="" ned i lagringsplatene. På SSD-er ser vi ofte feil på controller eller på minnechip.

Det er ikke uten grunn at vi kaller deler av lokalene våre for laboratorier. Vi har spesialverktøy, mikroskop og ikke minst renromsbenker som er optimalisert for vår jobb. Vi har reservedeler på harddisker tilbake til 80-tallet, helt unikt i bransjen.

Ofte avgjøres resultatet av jobben her, i selve renromsbenken. Når feilen er fikset og det ikke er behov for å jobbe med datastrukturene, kan data leses ut og kopieres ut på en ny harddisk. Slik som med vaskemaskindiskene.

Et HP EVA SAN er noe annet. Her skilles klinten fra hveten. Her gjør profesjonelle en forskjell.

Komplekse lagringssystemer må igjennom en omfattende logisk analyse etter at de fysiske feilene er rettet. En feil på en eller flere disker i et RAID, NAS eller virtuelt system, kan forårsake enorme feil i den logiske datastrukturen og i de underliggende systemene. Våre logiske eksperter er blant de fremste i verden. Som blodhunder søker de etter tilgjengelige data for å rekonstruere lag på lag i systemene. Aldri på original media, alltid på kopier vi har lagret på våre servere.

Denne uken har blodhundene jobbet døgnet rundt på jakt etter snapshots i et VMware/HP SAN system. En virtuell maskin med 900 GB skulle flyttes til ny hardware. vMotion programvaren viste ingen feil men det viste seg fort at bare 50 GB var flyttet over. Den originale virtuelle maskinen med alle snapshots var borte. Ingeniørene måtte lete etter fragmenter i hele systemet, på det berørte LUN-et og på den nye maskinvaren som var tatt i bruk. Et formidabelt puslespill. Denne gangen kunne vi gjenbruke spesialutviklet programvare som våre utviklingsteam lager ved behov. Uten slike verktøy og teften til ingeniørene, kan man glemme å løse slike saker.

Våre kunder har ofte hørt fra lagringsleverandører at de kan glemme å redde data fra slike systemer. Andre ganger har systemteknikere gitt feil råd, eller gjort problemet større med å forsøke å fikse problemene selv.

Vi har bevist at riktig førstehjelp, gode rutiner, gode verktøy og profesjonelle folk er helt avgjørende når hele himmelen faller ned.