[løst] ASP-tjenester. Vi opplever for øyeblikket problemer

Problembeskrivelse:
Vi opplever for øyeblikket problemer med tilgjengelighet mot vår ASP plattform.
Pålogging er utilgjengelig for alle berørte kunder.

Oppdatert kl 11.13:
Problemet er nå lokalisert og vi har alle tilgjengelige ressurser på saken.

Oppdatert kl 12.30:
Det meste av tjenester er nå på vei opp. Det gjenstår noe verifiseringsarbeid før vi kan friskmelde alt.

Oppdatert kl 13.30
Alle tjenester er nå tilgjengelige og kjører igjen som normalt.

Løsning:

[Løst] Driftsproblemer på natt og tidlig morgen

En knipe servere har hatt problemer eller startet på nytt i natt. En av dem var en front end server for e-post. Noen brukere kan derfor ha opplevd at e-post var utilgjengelig på tidlig morgen, eller at det har vært vansker med å logge inn på server.

Alle tjenester var friskmeldt ca 08:05. Det jobbes med å finne underliggende årsak og korrigere denne.

[Løst] Databaseserver har startet på nytt

Lørdag morgen startet en databaseserver på nytt. Alle tjenester var i gang igjen i løpet av kort tid, men enkelte brukere som var pålogget, men frakoblet på tidspunktet kan oppleve feilmeldinger i programmer som var åpne under hendelsen. Dette løses enkelt ved å lukke og åpne programmet igjen, eller i verste fall ved å logge av og på brukeren.

[Løst] Vi opplever for øyeblikket problemer

Problembeskrivelse:
Vi opplever for tiden et driftsavbrudd på vår ASP/skyløsning.

Vi jobber på spreng med å finne ut av hvorfor, samt å få alle tjenester opp igjen.
Oppdatert info følger.

10:30 De fleste tjenester er nå på vei opp igjen. Hvis man mangler ikoner på skrivebordet, trykk start – logg ut, og logg inn igjen.

 

Løsning:

Alle tjenester er i normal drift. Vi undersøker underliggende infrastruktur for å finne årsak til feilen.

[Ustabilitet] Vi opplever tidvis DDOS-angrep mot nettleverandør

ASP-løsningen er tidvis skadelidende av at det er et pågående DDOS-angrep mot tjenester hos vår nettleverandør, Når en ny trafikkbølge starter tar det noen minutter før systemer for deteksjon og filtrering av trafikken settes i gang. I denne perioden vil dessverre brukere oppleve å bli kastet ut uten å klare å koble til igjen. Ingen data mistes – det er kun tilkoblingen utenfra som blir brutt.

[Løst] Tilgangsproblemer til ASP og e-post grunnet en defekt brannmur

Vår primære brannmur har stoppet, og dessverre har det vært problemer med redundansen. I løpet av feilsøkingen stoppet denne også, og vi har teknikere på vei til datasenteret for å løse problemet.

Det viser seg at vi og flere andre kunder i datasenteret har blitt utsatt for et stort DDOS-angrep rettet mot en spesifikk nettside i samme datasenter. I samarbeid med nettleverandør er angrepet stoppet og filtrert bort, og våre brannmurer er tilbake i drift. Total nedetid har vært 70 minutter for ASP og en liten halvtime for e-post.

[Vedlikehold] Kontroller for trådløst (Meru/Fortinet) nettverk byttes lørdag formiddag

Som ledd i en forbedring av tjenestene og klargjøring til nye standarder for trådløst nettverk oppgraderer vi kontrollerenheten til vår tjeneste for enterprise trådløst nettverk – Meru/Fortinet.

Dette er en maskinvarekontroller som må bytte likt for likt, og byttet medfører noe nedetid.
Under byttet vil det kunne oppstå problemer med å logge på det trådløse nettverket. Arbeidet er planlagt lørdag 27/01 og er beregnet til å starte 10:00. Varighet er antatt til 15-30 minutter.

[Vedlikehold] Flytting av brannmurtjenester i kveld

Det må gjøres noe vedlikehold på primærbrannmur i kveld, og sekundærbrannmur aktiveres derfor i løpet av kvelden. Senere flyttes tjenester tilbake til primærbrannmur for test, og eventuelt en runde til om nødvendig.

Nedetid i perioden er knapt merkbar for vanlig bruk, men VPN-koblinger tar noen sekunder på å etableres igjen ved bytte mellom brannmurene.

[Løst] Tjenestebrudd i forbindelse med utskifting av feilende komponent

Problembeskrivelse:
Ved utskrifting av en feilende komponent i lagringsløsningen vår ble det utløst en større feil som har medført brudd i tilgangen til alle ASP-tjenster. Våre teknikere jobber sammen for å få satt ting i drift igjenn

Løsning:
Litt før kl 24 var de fleste tjenester tilgjengelige igjen. Noen ble det jobbet med ut over natten, men status er at alt er OK.

[Løst] Vår nettleverandør i ASP har problemer i sitt kjernenett

Vi orienterer om tidvise problemer med treghet og heng i ASP-løsningen

Problembeskrivelse:
Vår nettleverandør har en feil i sitt kjernenett som medfører at trafikken i svært korte perioder faller ut. Periodene er kun ett til to sekunder, men nok til at brukere av ASP merker heng. Nettleverandøren har alle ressurser på feilsøking, og vi forventer en snarlig løsning.

Løsning:
Kl 16:45 har vi fått beskjed om at problemet nå er løst.

[Ustabilt] Feil med en lagringsenhet gir usammenhengende ustabilitet

Saken er under arbeid og oppdateres løpende:

11.08.2017: I natt feilet en lagringsenhet som holdt flere skrivebordsservere. Disse ble da stoppet og kunne ikke starte igjen. Vi jobber med å flytte vekk de berørte serverne og starte dem opp igjen.
Kl 08:05 skal alle tjenester kjøre som normalt. Vi jobber nå med å identifisere og korrigere årsaken til feilen.

19.08.2017: Vi opplever fremdeles noe symptomer på feilen. Eksperter er hentet inn for å feilsøke videre.

23.08.2017: Ny ustabilitet. Feilende komponent er funnet og det jobbes med å korrigere denne.
Som ledd i feilsøkingen er vi dessverre nødt til å skru av tilgang til tjenester i vedlikeholdsvinduet i kveld. Nærmere orientering gis de som er pålogget i tidsvinduet.

24.08.2017: Det oppleves fremdeles problemer for enkelte kunder.
Kl 08:30 var de fleste løsninger stabile, og det arbeides med å rette enkelte følgefeil.

28.08.2017: Feilende komponent er identifisert, og sannsynlig løsning planlagt. Nå venter vi bare på en tid med litt mindre belastning så den kan byttes med minimalt bryderi for brukere.

29.08.2017: Feilretting i datasenteret tar lenger tid enn forventet, og løsningen er i stor grad utilgjengelig i kveld mens det arbeides. Vi beklager ulempene det medfører.

03.09.2017: Vi opplever på nytt problemer med stabilitet på enkelte tjenester.

05.09.2017: Under en belastningstest på ettermiddagen var det en ny hendelse der en rekke servere ble påvirket av stabilitetsproblemer.

06.09.2017: Det oppsto nettopp en ny hendelse der en rekke servere ble påvirket. Vi jobber på å flytte tjenester vekk fra den ustabile enheten.

Vi jobber nå med å flytte data vekk fra hele lagringsløsningen som utpeker seg som synder. Dette gjøres primært på kveld/natt, men vil i noen tilfeller løpe ut over morgen der det er store sammenhengende datamengder. Under flytting vil det oppleves noe tregere respons på enkelte tjenester.

19.09.2017: Vi har igjen opplevd ustablitet i løpet av natten. feilretting ble påbegynt 06:45, men noen av de som er tidlig på har nok merket litt til dette før alt var på plass.

[løst] Ustabilitet/treghet på ASP-løsningen

Problembeskrivelse: Vi opplever for øyeblikket ustabilitet for enkelte brukere på ASP-løsningen der sesjonen går hakkete og tregt.

Løsning: Vi har restartet flere nettverkskomponenter, og alt fungerer foreløpig slik det skal. Vi jobber nå med å overvåke og finne bakenforliggende årsak til problemet.

Oppdatering: Det fortsatt noen som opplever treghet som kommer og går. Dette jobbes videre med.

Endelig løsning: En ressurstyv er identifisert og tiltak er iverksatt for å sørge for at den ikke tar overhånd igjen.

[nedetid]Oppgradering av lagringsløsning

Vi varsler med dette at det er planlagt vedlikehold på ASP-plattformen vår som kan få konsekvenser for tilgang til tjenester.

Vedlikeholdsbeskrivelse:

Vi skal gjøre en større oppgradering på lagringsløsningen på ASP-plattformen. Dette medfører at sentrale tjenester må stenges ned under oppgraderingen.

Det vil ikke være mulig å logge på under arbeidet. Påloggede bruker vil bli logget ut kl 11:00. Pass på å lagre arbeid i forkant, og logg gjerne ut selv i god tid før oppgraderingen begynner.

E-post vil ikke være tilgjengelig under oppgraderingen. E-post som mottas vil ligge i kø og leveres når oppgraderingen er ferdig. Outlook og mobile klienter vil være frakoblet. E-post som sendes fra Outlook vil leveres når Outlook får kontakt med e-postløsningen igjen etter oppgraderingen.

Tidspunkt for forventet nedetid:

Lørdag 04.06.2016 kl 11:00

Forventet varighet: 3-4 timer.

[løst] Vi opplever for tiden forsinkelse på e-post

Problembeskrivelse:

Vi opplever nå større forsinkelser på leveranse av e-post. Leverandøren av spamfilteret er utsatt for et større angrep (DDoS), så ting tar mye lengre tid enn normalt. Vi vet p.t. ennå ikke når e-posten blir levert normalt.

Løsning:

Leverandøren av spamfilteret rapporterer at kl. 19:00 blir all epost levert som normalt og at meldinger som har vært forsinket nå er levert.

[nedetid] Vi oppdaterer en filtjeneste natt til lørdag

Natt til lørdag  28/11 vil vi utføre et utvidet vedlikehold.  Dette innebærer oppdatering av en filserver for bedre ytelse og funksjonalitet. Noen brukere vil derfor oppleve at filer og dokumenter ikke er tilgjengelig dersom de drifter seg til å jobbe midt på natten. Jobben er ferdig litt ut på formiddagen. God helg!

[løst] Vi opplever for øyeblikket problemer

Problembeskrivelse:

En lagringsløsning fikk problemer ca 15:33, og skapte problemer med tilgang til ASP- og e-postløsning for mange brukere. Etter feilsøking ble det gjort endringer på lagringen og løsningene var generelt tilgjengelige igjen ca 16:25. Enkelte tjenester har vært berørt lenger, og foreløpig jobber vi med å få gjenopprettet tilgang for en del av våre e-postbrukere. Oppdateringer følger etter som vi kommer videre i feilrettingen.

Oppdatering 03/10 08:30 – E-posttjenester er fremdeles under gjenoppretting for de som påvirket. Det er store mengder data som må gjennomgås, så det kommer fremdeles til å ta mye tid. E-post som er sendt mens servere er nede ligger i kø i påvente av at serveren starter mottak av e-post, så ingen kommunikasjon er tapt.

Oppdatering 03/10 10:45 – Vi jobber fortsatt med gjenoppretting av e-posttjenester. Estimatet nå er at e-post kommer til å forbli utilgjengelig for en del brukere resten av dagen. Ny oppdatering kommer først når neste steg i prosessen er påbegynt.

Oppdatering 03/10 22:45 – Vi ser fremgang, men det går saktere enn forventet. Ny forventet rettetid er i morgen formiddag.

Løsning:

E-postløsningen for berørte brukere ble gjort tilgjengelig igjen 04/10-15 kl 10:30. Det har blitt arbeidet kontinuerlig med gjenoppretting av denne tjenesten siden feilen inntraff. Grunnet store datamengder og omfattende analysearbeid har det tatt lenger tid enn ønskelig. En ny løsning for e-post med større redundans og mindre dataenheter er i ferd med å fases inn. Denne løsningen er bygget for å minimere sansen for tilsvarende feil, og drastisk redusere eventuell rettetid.

Vi er i dialog med leverandøren av lagringsløsningen for å finne en permanent løsning på det underliggende problemet som har skapt denne feilen.

[løst] Vi opplever for øyeblikket problemer med nettlinjer

Problembeskrivelse:
Vår nettleverandør har problemer i sitt kjernenett og opplever tidvis forsinkelse i trafikken. Dette ligger dessverre på et nivå høyere enn vår redundans og vi jobber tett med leverandøren for å bøte på problemer så langt det er mulig.

Så lenge problemene vedvarer vil brukere kunne oppleve å miste kontakt med ASP-plattformen i kortere tidsrom. Ingen data går tapt – det er kun tilkoblingen som stopper opp.

Løsning:
Alle forbindelser har kjørt stabilt, uten dropp, siden ca 11:57. Vår nettleverandør avventer å friskmelde situasjonen helt inntil de ser at forbindelsene kjører stabilt over noe lengre tid, men det ser ut til at problemene er løst. Data fra dagens hendelse analyseres og tester kjøres for verifisering. Vi forventer en fyldig rapport over hendelsene og vil jobbe med leverandøren for å unngå at fremtidige hendelser skaper samme type problemer.

[løst] Problem med lagringsenhet

Problembeskrivelse:
Det oppstod problemer med tilgangen til ASP-løsningen tirsdag rundt 13:30. Brukere opplevde heng og å bli kastet ut uten å kunne logge på løsningen igjen. Løsningen var generelt tilgjengelig igjen ca 14:05.

Løsning:
En feil i underliggende maskinvare førte til at servere ble utilgjengelige. Komponenten er identifisert og isolert før den byttes. Det arbeides med å endre rutiner og oppsett slik at denne typen feil ikke vil påvirke tilgang til løsningen i fremtiden.