Korkea saatavuus

Korkean käytettävyyden tai korkean käytettävyyden ( HA ) on termi käytetään usein atk noin järjestelmäarkkitehtuuri tai palvelun ilmaisemaan, että tämä arkkitehtuurin tai palvelu on käytettävyysaste sopiva.

Saatavuus on nykyään tärkeä asia IT-infrastruktuureille. Vuoden 2007 tutkimuksessa arvioidaan, että tietotekniikkapalveluiden puuttuminen voi maksaa 440 000 euroa tunnissa, mikä on miljardeja euroja valtakunnallisesti. Tietotekniikkapalvelujen saatavuus ei ole erityisen tärkeää teollisuudessa, varsinkin jos tuotantolinja pysähtyy.

Saatavuuden parantamiseksi käytetään kahta täydentävää tapaa:

erikoistuneen laitteistoinfrastruktuurin perustaminen, joka perustuu yleensä laitteiston redundanssiin. Sitten luodaan korkean käytettävyyden klusteri (toisin kuin laskentaryhmä): tietokoneiden klusteri, jonka tarkoituksena on tarjota palvelua välttäen mahdollisimman paljon seisokkeja;
asianmukaisten prosessien toteuttaminen virheiden vähentämiseksi ja palautumisen nopeuttamiseksi virhetilanteessa. ITIL sisältää monia tällaisia prosesseja.

Saatavuusasteen mittaus

Saatavuus mitataan usein prosentteina:

Saatavuus%	Ei käytettävissä vuodessa	Ei käytettävissä kuukaudessa	Ei käytettävissä viikossa
90% ("uusi")	36,5 päivää	72 tuntia	16,8 tuntia
95%	18,25 päivää	36 tuntia	8,4 tuntia
98%	7.30 päivää	14,4 tuntia	3,36 tuntia
99% ("kaksi yhdeksää")	3,65 päivää	7,20 tuntia	1,68 tuntia
99,5%	1,83 päivää	3,60 tuntia	50,4 minuuttia
99,8%	17.52 tuntia	86,23 minuuttia	20,16 minuuttia
99,9% ("kolme yhdeksää")	8,76 tuntia	43,2 minuuttia	10,1 minuuttia
99,95%	4,38 tuntia	21,56 minuuttia	5,04 minuuttia
99,99% ("neljä yhdeksää")	52,56 minuuttia	4,32 minuuttia	1,01 minuuttia
99,999% ("viisi yhdeksää")	5,26 minuuttia	25,9 sekuntia	6,05 sekuntia
99,9999% ("kuusi yhdeksää")	31,5 sekuntia	2,59 sekuntia	0,605 sekuntia

Korkea käytettävyys sekoitetaan usein virheellisesti katastrofien elvytyssuunnitelmaan . Nämä ovat kaksi erilaista, toisiaan täydentävää tehtävää jatkuvan saatavuuden saavuttamiseksi .

Tekniikat saatavuuden parantamiseksi

Saatavuuden parantamiseen käytetään monia tekniikoita:

redundanssi laitteiston ja asettaa klusterin ;
tietoturva: RAID , tilannekuvat , Oracle Data Guard (en) , BCV (Business Copy Volume), SRDF (Symmetrix Remote Data Facility) , DRBD ;
mahdollisuus konfiguroida palvelin uudelleen "kuumana" (ts. kun se on käynnissä);
heikentynyt tila tai paniikkitila ;
varasuunnitelma ;
ja varmuuskopioiden turvaaminen: ulkoistaminen, keskittäminen kolmansien osapuolten sivustoille.

Korkea käytettävyys vaatii useimmiten sopivan huoneen: vakaa virtalähde, ilmastointi lattialla, hiukkassuodattimella, huoltopalvelu, turvapalvelu ja turvallisuus ilkeä tahallisuus ja varkaus. Huomioi myös tulipalon ja vesivahinkojen vaara. Virta- ja tiedonsiirtokaapeleiden on oltava useita ja haudattuja. Niiden ei tulisi ulottua rakennuksen maanalaiseen pysäköintialueeseen, jota nähdään liian usein Pariisin rakennuksissa. Nämä kriteerit otetaan ensimmäiseksi huomioon majoitustarjoajaa valittaessa (tapaus vuokrata korkean saatavuuden huone).

Arkkitehtuurin jokaiselle tasolle, jokaiselle komponentille, jokaiselle komponenttien väliselle linkille on määritettävä:

Kuinka havaita vika? Esimerkkejä: TCP: n terveystarkastus Alteon-laatikon toteuttamat elintestit, ajoittain kutsuttu testiohjelma (" syke "), komponenttien "diagnostinen" käyttöliittymä jne.
Kuinka komponentti on suojattu, tarpeeton, varmuuskopioitu… Esimerkkejä: valmiustilapalvelin, järjestelmäklusteri, Websphere- klusterointi , RAID-tallennustila, varmuuskopiot, kaksinkertainen SAN-liitetiedosto, huonontunut tila, ilmainen käyttämätön laitteisto (vara) valmiina asennettavaksi uudelleen.
Kuinka haluat kytkeä kytkimen päälle hätä- / heikentyneessä tilassa. Manuaalisesti analyysin jälkeen? Automaattisesti ?
Kuinka varmistaa, että hätäjärjestelmä palaa vakaan ja tunnetun tilan. Esimerkkejä: aloitamme tietokannan kopiosta ja käytämme arkistolokeja uudelleen, käynnistämme erät uudestaan tunnetusta tilasta, 2-vaiheinen sitoutuminen tapahtumiin päivittää useita tietotalletuksia ...
Kuinka sovellus käynnistyy uudelleen varamekanismissa. Esimerkkejä: sovelluksen uudelleenkäynnistys, keskeytettyjen erien uudelleenkäynnistys, huonontuneen tilan aktivoiminen, varmuuskopiointipalvelimen jatkaminen epäonnistuneen palvelimen IP-osoitteessa jne.
Käynnissä olevien tapahtumien tai istuntojen jatkaminen. Esimerkkejä: istunnon pysyvyys sovelluspalvelimella, mekanismi vastauksen varmistamiseksi asiakkaalle tapahtumasta, joka suoritettiin oikein ennen vikaa, mutta jolle asiakas ei saanut vastausta, jne.
Kuinka palata nimellistilanteeseen. Esimerkkejä:
- Jos huonontunut tila sallii, jos tietokanta epäonnistuu tallentamaan odottavia tapahtumia tiedostoon, miten tapahtumia käytetään uudelleen, kun tietokanta aktivoituu uudelleen.
- jos viallinen komponentti on deaktivoitu, miten se otetaan uudelleen aktiiviseen palveluun (esimerkiksi tietojen synkronointi, komponentin uudelleentestaus jne.)

Riippuvuus muista sovelluksista

Sovellukselle, joka käyttää muita sovelluksia middleware synkronisessa tilassa ( verkkopalvelu on http , Tuxedo , Corba , EJB ) saatavuus nopeus hakemus liittyy vahvasti sovellusten käytettävyyttä josta se on riippuvainen. Siksi niiden sovellusten herkkyyden, joista olemme riippuvaisia, on oltava samanarvoisia tai suurempia kuin itse sovelluksen herkkyys.

Muussa tapauksessa harkitse

asynkronisen väliohjelmiston käyttö: MQ-sarja , JMS, SonicMQ , CFT
huonontuneen tilan toteutus, kun sovellus, josta riippuu, on viallinen.

Tästä syystä suosimme asynkronisen väliohjelmiston käyttöä hyvän saatavuuden edistämiseksi aina kun mahdollista.

Kuormituksen jakautuminen ja herkkyys

Herkkyyttä hallitaan usein redundanteilla elementeillä, joissa on kuorman tasapainotusmekanismi. (Websphere-klusteri, jossa on esimerkiksi Alteonin kuormituksen tasapainotus). Jotta tämä järjestelmä antaisi todellista hyötyä luotettavuudesta, on tarpeen varmistaa, että jos jokin elementeistä on viallinen, muilla elementeillä on riittävä teho palvelun varmistamiseksi.

Toisin sanoen kahden aktiivisen palvelimen tapauksessa, joissa on kuormituksen tasapainottaminen, yhden palvelimen tehon on kyettävä varmistamaan kuormituksen kokonaisuus. Kolmella palvelimella yhden palvelimen tehon pitäisi pystyä käsittelemään 50% kuormituksesta (olettaen, että kaatumisen todennäköisyys kahdella palvelimella samanaikaisesti on vähäinen).

Hyvän saatavuuden varmistamiseksi on tarpeetonta laittaa suuri määrä palvelimia auttamaan toisiaan. Esimerkiksi kerran käytettävissä oleva 99% käytettävissä oleva elementti antaa 99,99% käytettävyyden (todennäköisyys, että molemmat elementit epäonnistuvat samanaikaisesti = 1 / 100x1 / 100 = 1/10000).

Differentiaalinen redundanssi

Elementin redundanssi suoritetaan yleensä valitsemalla redundanssi useiden identtisten komponenttien kanssa. Tällöin oletetaan olevan tehokasta, että yhden komponentin vika on satunnainen ja riippumaton toisen komponentin vikaantumisesta. Tämä pätee esimerkiksi laitteistovikoihin.

Tämä ei koske kaikkia vikoja: esimerkiksi käyttöjärjestelmävika tai poikkeama ohjelmistokomponentissa voi tapahtua, kun olosuhteet ovat suotuisat, kaikille komponenteille samanaikaisesti. Tästä syystä, kun sovellus on erittäin herkkä, harkitsemme redundantteja elementtejä, joilla on eri luonteisia komponentteja, mutta jotka tarjoavat samat toiminnot. Tämä voi johtaa:

valita erityyppisiä palvelimia, joissa on eri käyttöjärjestelmä, erilaiset infrastruktuuriohjelmistotuotteet;
kehittää sama komponentti kahdesti, kunnioittaen joka kerta komponenttiin sovellettavia rajapintasopimuksia.

Irtisanominen äänestysjärjestelmän kanssa

Tässä tilassa eri komponentit käsittelevät samoja tuloja ja tuottavat siten (periaatteessa) samat lähdöt.

Kaikkien komponenttien tuottamat tulokset kerätään ja sitten toteutetaan algoritmi lopullisen tuloksen tuottamiseksi. Algoritmi voi olla yksinkertainen (enemmistöäänestys) tai monimutkainen (keskiarvo, painotettu keskiarvo , mediaani jne.), Jonka tavoitteena on poistaa virheelliset tulokset, jotka johtuvat yhden komponentin toimintahäiriöstä, ja / tai tehdä komponentista luotettavampi. yhdistämällä useita hieman erilaisia tuloksia.

Tämä prosessi :

ei salli kuormituksen tasapainottamista ;
esittelee äänestysalgoritmia hallitsevan komponentin luotettavuusongelman.

Tätä prosessia käytetään yleensä seuraavissa tapauksissa

Perustuvat anturit (esimerkki: lämpötila-anturit) ja anturit ovat redundantteja
Käytetään järjestelmiä tai useita eri toimintoja, jotka suorittavat saman toiminnon (vrt. Differentiaalinen redundanssi) ja joille voidaan saada parempi lopputulos yhdistämällä komponenttien tuottamat tulokset (esimerkki: mallintunnistusjärjestelmä , jossa käytetään useita algoritmeja paremman tunnistamisnopeuden saamiseksi) .

"Varjotoiminnot"

Kun redundantti komponentti ei toimi ja sen jälkeen, kun se on korjattu, saatat haluta palauttaa sen aktiiviseen palveluun ja tarkistaa, että se todella toimii oikein, mutta tuloksia ei käytetä. Tässä tapauksessa syötteet käsitellään yhdellä (tai useammalla) luotettavaksi katsotulla komponentilla. Nämä tuottavat loppujärjestelmän hyödyntämän tuloksen. Samoja merkintöjä käsittelee myös uusi komponentti, jonka sanotaan olevan "varjo" -tilassa. Komponentin oikea toiminta voidaan todeta vertaamalla saatuja tuloksia luotettavien komponenttien tuloksiin. Tätä prosessia käytetään usein äänestyspohjaisissa järjestelmissä, koska riittää, että komponentti suljetaan "varjo" -tilassa lopullisesta äänestyksestä.

Prosessit, jotka auttavat parantamaan käyttöaikaa

Näissä prosesseissa voidaan erottaa kaksi roolia.

Prosessit, jotka vähentävät vikojen määrää

Perustuen olettamukseen, että ennaltaehkäisy on parempi kuin parannuskeino , järjestelmään liittyvien tapahtumien määrää vähentävien ohjausprosessien käyttöönotto parantaa saatavuutta. Kaksi prosessia sallivat tämän roolin:

Muutoksenhallintaprosessi: 60% virheistä liittyy äskettäiseen muutokseen. Asettamalla virallinen prosessi, johon liittyy riittävä testaus (ja joka suoritetaan oikeassa tuotantoa edeltävässä ympäristössä), monet tapaukset voidaan poistaa.
Ennakoiva virheenhallintaprosessi: Tapahtumat voidaan usein havaita ennen niiden tapahtumista: vasteajat kasvavat ... Tähän tehtävään osoitettu prosessi, joka on varustettu asianmukaisilla työkaluilla (mittaus, raportointijärjestelmä jne.), Voi puuttua jo ennen tapaus tapahtui.

Toteuttamalla nämä kaksi prosessia voidaan välttää monia tapahtumia.

Prosessit, jotka lyhentävät seisokkien kestoa

Hajoamisia tapahtuu aina. Tässä vaiheessa palautusprosessi virhetilanteessa on välttämätöntä, jotta palvelu voidaan palauttaa mahdollisimman nopeasti. Tällä prosessilla on oltava yksi tavoite: jotta käyttäjä voi käyttää palvelua mahdollisimman nopeasti. Lopullista korjausta tulisi siksi välttää, koska se vie paljon kauemmin. Tämän prosessin pitäisi siis luoda ongelma kiertotielle.

Korkean käytettävyyden klusteri

Korkean käytettävyyden klusteri (vastakohtana laskentaklusterin) on klusterin tietokoneita, joiden tavoitteena on tarjota palvelua välttäen seisokit mahdollisimman paljon.

Tässä on tyhjentävä luettelo UNIX: n klusterointisovelluksista (käynnissä AIX , HP-UX , Linux tai Solaris):

Evidian SafeKit (kuormituksen tasaus, reaaliaikainen replikointi ja vikasietoisuus)
HP MC / ServiceGuard HP-UX: lle
IBM HACMP
Bull- sovelluksen kaatumisjärjestely
Symantec Veritas Cluster Server
Avoimen lähdekoodin Linux- tahdistin (ohjelmisto)
OpenSVC (ilmainen ilmainen ohjelmisto)
Oracle Solaris Cluster (entinen SUN Cluster)

Todistus

On varmentamislaitokset, kuten Uptime Instituten (joskus kutsutaan "Global Data Center viranomainen" ), joka on määritellyt luokitukset alalla datakeskukset , erottaa neljä erilaista "kolmannet osapuolet", sekä kriteerit sietokykyä .

Katso myös

Aiheeseen liittyvät artikkelit

Ulkoiset linkit

Huomautuksia ja viitteitä

" silicon.fr " (käytetty 9. joulukuuta 2010 )
" Journaldunet " (käytetty 9. joulukuuta 2010 )
Laskennassa käytetään 30 päivän jaksoa.
(en) Alteon WebSystems
http://www.uptimeinstitute.com/professional-services/professional-services-tier-certification "Arkistoitu kopio" (versio 23. heinäkuuta 2018 Internet-arkistossa )