Press Release

22. januar 2013

Datatap i virtuelle miljø

Ikke skyld på maskinen når feil oppstår i virtuelle miljø. Håndteringen og rutinene skorter oftest.

Av Øyvind Nyland, avdelingsleder i Ibas AS

Konsekvenser av systemer som er nede: Tapt arbeidstid, nedsatt produktivitet, dyre konsulenter, svekkelse av omdømme, og misfornøyde kunder som lett legger ordren hos konkurrenten. I fysiske miljø er tre av fire feil forårsaket av maskiner. I virtuelle miljø skyldes seks av ti feil menneskelig svikt. Selv om virksomheter i stadig større grad har gode kriseplaner, er det viktig at dette ikke blir en sovepute. Uhell og kriser vil komme. Å være forberedt krever mer enn planer og innovativ teknologi. Rutiner, et godt samarbeidsklima, og klare ansvarsfordelinger er avgjørende. Verdifull gjenopprettingstid går tapt når man oppdager at sikkerhetskopier er ødelagt eller ikke kan leses.

Fire skrekkeksempel

Vi kommer over mange tilfeller der mennesker ødelegger data, både ved uhell og med hensikt:

  • En virksomhet opplevde at deres virtuelle vert-tjener mistet tilgang til lagringssystemet. Miljøet hadde 40 virtuelle maskiner og en miks av OS-er. Hovedserveren kjørte en Linux-basert hypervisor med to LUN tilkoblet. LUN-ene hadde på et tidspunkt blitt reformatert av ukjent årsak. I en reformateringsprosess skrives EXT-filsystemets metadata til predefinerte områder. Disse metadataene inneholder kun noen tusen bytes med informasjon, men skadene på de virtuelle diskfilene og -strukturen var enorme. Etter mange sene kvelder med omfattende gjenoppretting ble de virtuelle diskfilene funnet og dataene gjenopprettet
  • To virksomheter som skulle fusjonere fikk enorme problemer med it-sammenslåingen. Selv om det ikke er entydig konkludert, tror man sabotasje var årsaken. Vertsmaskinen hos den største aktøren hadde 400 virtuelle servere fordelt på 20 LUN. I migreringsprosessen mistenkes det at en med administratorrettigheter slettet 440 virtuelle diskfiler og over 1000 snapshot-filer. It-avdelingen måtte dermed bruke tre døgn på å få liv i viktigste serverne. De neste ukene ble brukt på resten av lagringssystemet. Restore av backup førte til at de fleste virtuelle maskinene kom opp igjen, noen få måtte "manuelt" bygges opp på nytt ved å lete opp tilfeldige kopier av filer fra andre lagringsenheter, mail etc.
  • En aktør fikk seg en overraskelse under rutinevedlikehold. SAN-løsningen med de virtuelle maskinene ble ved et uhell presentert til feil server. Når lagringsløsningen ble identifisert som ukjent ble innholdet automatisk reformatert. Da de logget seg på den redundante løsningen oppdaget de at kopien var lik originalen og begge systemene hadde blitt reformatert samtidig. Dataene ble senere gjenvunnet etter en lang og kostbar prosess. Lærdommen var at selv om maskinen har svært gode funksjoner, må hodene gi instrukser. I dette tilfellet å skru av replikering på den speilede løsningen
  • Hos en nederlandsk aktør hadde et RAID5 sluttet å fungere. Dette besto av tolv harddisker med 50 virtuelle maskiner som blant annet kjørte økonomi- og salgssystemet. Selskapet forsøkte mange ulike løsninger for rekonstruksjon deriblant en svensk servicetekniker og direkte bistand fra maskinvareleverandør. Sistnevnte klarte ikke å hjelpe på lokasjon og tok med seg to disker til England. Ibas ble koblet på og forsøkte umiddelbart å spore opp de to diskene, da disse kunne være avgjørende. En analyse viste fysiske leseproblemer på en disk. 11 av de 12 harddiskene var med i RAIDet, den siste harddisken var i reserve. RAIDet inneholdt tre LUN og kjørte med en datadisk offline i flere måneder. Løsningen var rekalkulering av offline- disken og gjenoppbygging av RAIDet for å få tilgang til hvert av LUNene med de virtuelle maskinene. Dermed ble 38 virtuelle maskiner fullstendig gjenopprettet, resterende med 99,8 prosent.

Gode rutiner

Den beste databeskyttelsen er gjennomprøvd teknologi styrt av folk som løser problemer før de oppstår. Om man fjerner menneskelig risiko forsvinner de fleste uhellene. En rekke faktorer bør være predefinert for å sikre at man er best rustet:

  • Tjenesteavtaler som definerer hvor lang tid det skal ta før system er oppe/data er gjenvunnet
  • Backup-strategi som er detaljert planlagt for hver komponent
  • Speiling til ekstern lokasjon
  • Man må avgjøre hvilke ledd i virksomheten som kan tåle nedsatt ytelse i perioder
  • Utpek ansvarlige personer og fastsett hvem som har ansvar for hva om uhellet inntreffer
  • Velg backup-løsninger som håndterer både fysiske- og virtuelle behov
  • Sikre at leverandører er trygge og at linjene er sikre før man overfører sensitive data. Deretter må man definere i hvilke format data skal sendes begge veier
  • Har leverandøren systemer og protokoller som samsvarer med deres?
  • Har man nok maskinkraft tilgjengelig ved behov?

Den enorme veksten av data fortsetter å sette nye typer krav til prosesser, teknologi og strukturer. Gode planer, og jevnlig testing av disse er viktig. Har man planlagt rett kommer man seg gjennom kriser uten de største ripene i lakken.