NoSQL

Vuonna tietojenkäsittelytiede ja tietokannat , NoSQL viittaa perheen tietokannan hallintajärjestelmät (DBMS), joka poikkeaa klassisesta paradigma on relaatiotietokantojen . Lyhenteen suosituin selitys on paitsi SQL, vaikka tämä tulkinta on kiistanalainen.

NoSQL DBMS -perheen tarkka määritelmä on edelleen keskustelun kohteena. Termi liittyy yhtä paljon teknisiin ominaisuuksiin kuin DBMS: n historialliseen sukupolveen, joka syntyi noin vuoden 2010 aikana. Pramod J. Sadalagen ja Martin Fowlerin mukaan tärkein syy DBMS: n NoSQL: n syntymiseen ja käyttöönottoon olisi palvelinkeskusten kehittäminen. ja tarve omistaa tietokantaparadigma, joka on mukautettu tähän laitteistoinfrastruktuurin malliin.

Klusteroitu konearkkitehtuuri saa aikaan hajautetun ohjelmistorakenteen, joka toimii eri palvelimille hajautettujen aggregaattien kanssa, mikä sallii samanaikaisen pääsyn ja muokkaukset, mutta asettaa myös kyseenalaistamaan perinteisen relaatio-DBMS-arkkitehtuurin monet perusteet, erityisesti ACID-ominaisuudet .

Historialliset elementit

Suhteellisen DBMS: n historiallinen dominointi

1970-luvulla luodut relaatiotietojärjestelmät vakiinnuttivat itsensä vähitellen, kunnes niistä tuli hyvin hallitseva tietokantaparadigma 1990-luvun alussa.

On syntynyt useita muita tietokantamalleja, kuten DBMS: n olio-orientoitu , hierarkkinen DBMS , objektisuhteellinen DBMS , mutta niiden käyttö on ollut hyvin rajallista.

Suhdemallin jakamaton dominointi palautettiin 2000-luvulla, kun suuret Internet-yritykset (Google, Amazon, eBay jne.) Sekoittivat valtavia määriä dataa ja kehittyivät klusterilaskenta . kärsivät näiden uusien käytäntöjen lamauttavista rajoista.

NoSQL-mallin edelläkävijät

Suurten verkkoyritysten oli käsiteltävä erittäin suuria määriä dataa, jotka kohtasivat ensimmäiset perinteisten relaatio-DBMS: ien luontaiset rajoitukset. Nämä järjestelmät, jotka perustuvat ACID-ominaisuuksien tiukkaan toimeenpanoon ja jotka on yleensä suunniteltu toimimaan yksittäisissä tietokoneissa, kohtasivat nopeasti skaalautuvuusongelmia .

Näiden rajoitusten täyttämiseksi nämä yritykset ovat alkaneet kehittää omia tietokantojen hallintajärjestelmiä, jotka voivat toimia hajautetuilla laitteistoarkkitehtuureilla ja pystyä käsittelemään suuria tietomääriä. Tuloksena olevat omat järjestelmät, Google ( BigTable ), Amazon ( Dynamo (en) ), LinkedIn ( Voldemort ), Facebook ( Cassandra sitten HBase ), SourceForge.net ( MongoDB ), Ubuntu One ( CouchDB ), Baidu ( Hypertable ) olivat edelläkävijöitä. NoSQL-mallin.

Suorituskyky pysyy hyvänä kuormituksen kasvaessa yksinkertaisesti kertomalla palvelimien määrä, mikä on kohtuullinen ratkaisu pienemmillä kustannuksilla, varsinkin jos tulot kasvavat toiminnan lisääntyessä. Jättijärjestelmät ovat ensinnäkin huolissaan: valtavat tietomäärät, heikko relaatiorakenne (tai vähemmän tärkeä kuin erittäin nopean pääsyn kapasiteetti, vaikka se tarkoittaisi palvelimien monistamista).

NoSQL: n tyypillinen malli on avainarvojärjestelmä, jossa on tietokanta, joka topologisesti voidaan tiivistää yksinkertaiseksi yksidimensionaaliseksi assosiatiiviseksi taulukoksi, jossa on miljoonia tai jopa miljardeja merkintöjä. Tyypillisiä sovelluksia ovat reaaliaikainen analyysi, tilastot, lokitallennus jne.

NoSQL-termin keksiminen ja popularisointi

Näitä omia järjestelmiä esittelevien artikkeleiden julkaiseminen on johtanut useiden avoimen lähdekoodin projektien kehittämiseen, jotka ottavat uudelleen käyttöön 2000-luvun lopulla / 2010-luvun alussa nämä pääperiaatteet, nimittäin hajautettujen laitteistoarkkitehtuurien skaalautuvat järjestelmät , jotka eivät kohdistu sovellukseen. tiukka ACID-standardi .

11. kesäkuuta 2009, Johan Oskarsson , atk-insinööri Lontoossa, haluaa järjestää tapaaminen vuonna San Franciscossa antaa yleiskuva näitä uusia ”avoimen lähdekoodin, hajautettujen ja ei-relaatio” järjestelmiä . Hän halusi kovan ja helposti muistettavan nimen tälle konferenssille, kuultuaan IRC-kanavaa #Cassandra, nimi "NoSQL" säilytettiin. Tämä nimi oli alun perin tarkoitettu vain nimeämään tämä yleissopimus, mutta se siirtyy jälkeläisille tulemalla tämän sukupolven työkalujen nimeksi. Tulkinta " ei vain SQL " keksitaan myöhemmin vain lyhenteinä .

Monet tutkijat ovat valittaneet termin "NoSQL" epätarkkuudesta ja sen mahdollisesti aiheuttamasta sekaannuksesta. Joskus he ovat pitäneet parempana termiä "NoRel" (" ei vain relaatio ") tai muita tarkempia nimityksiä, mutta termi on edelleen suosituin.

2009 NoSQL-yleissopimus

Yli sata ohjelmistokehittäjät osallistui esityksiä ratkaisuja, kuten Project Voldemortin , Cassandra , Dynomite , HBase , Hypertable , CouchDB ja MongoDB .

San Franciscossa pidettyä vuoden 2009 kokousta pidetään NoSQL-ohjelmistokehittäjäyhteisön vihkimisenä. Kehittäjät, jotka mukaan Computerworld -lehden , "kertomaan, kuinka he kumosi tyrannian kalliita ja hitaita relaatio DBMS kanssa helpompaa ja nopeampaa tapaa manipuloida tietoja . " Jonkin konferenssin esittäjän Jon Travisin mukaan "Relaatio-DBMS: t tekevät liikaa, kun taas NoSQL-tuotteet tekevät mitä tarvitset . " Tämän yhteisön johtajat ovat pääasiassa aloittelevia yrityksiä, joilla ei ollut keinoja hankkia Oracle- lisenssejä , ja kehittivät siksi oman DBMS: n jäljittelemällä Googlen ja Amazon.comin tuotteita . Heidän luomansa tuotteet pystyvät käsittelemään erittäin suuria tietomääriä (satoja teratavuja ) ja tarjoavat skaalautuvuuden Web 2.0 -sovellusten tarpeisiin räätälöidyllä kuormalla , mikä tekee niistä merkityksellisiä. Kirjoittajat kuvailevat tuotteitaan olevan DBMS: n sijaan pikemminkin tietojen tallennusohjelmia .

Ei-relaatio-DBMS, vanhempi kuin relaatio-DBMS, on klassinen keskusyksiköissä ja hakemisto- ohjelmistoissa , ja se toimii siellä, missä lukeminen on paljon useammin kuin kirjoittaminen (esim. LDAP ). Heidän periaatteena on saada uusi elämä NoSQL : n kanssa Internet-palvelujen alalla, koska suurin osa NoSQL-ohjelmistoista on tarkoitettu suurten Internet-palveluiden kuormituksen tasapainottamiseen .

Vuonna 2011 standardoidun manipulointikielen määritystyö alkoi nimellä UnQL ( Unstructured Query Language ). Siinä ehdotetaan virallistamaan tapa, jolla NoSQL-tietokannat tekevät kyselyjä kokoelmissa (relaatiotietokantojen tietotaulukoiden vastine). Vaikka UnQL esitettiin abstraktina SQL: n päällä, joka vastasi hyvin rajoitettua UnQL: ää, muistutettiin, että UnQL ei kata kaikkea SQL: n LDD : tä. Todellisuudessa kaksi aluetta, relaatiotietokannat ja NoSQL, jotka vastaavat erilaisiin tarpeisiin ja rajoituksiin, esiintyvät usein rinnakkain liiketoiminta- arkkitehtuureissa .

Teoria

NoSQL DBMS: n pääominaisuudet ovat suurten tietomäärien käsittely ja horisontaalinen skaalautuvuus . Nämä järjestelmät eivät yleensä noudata relaatio-DBMS: n standardeja: se ei ole tiukasti haluttu ominaisuus, vaan pikemminkin myönnytys, joka mahdollistaa nopeamman käsittelyn tietyntyyppisille sovelluksille.

Sellaisena DBMS-rakenteet ovat edelleen hyvin heterogeenisiä vuodesta 2016. Voimme kuitenkin mainita muutaman tärkeimmän nousevan perheen.

Kokoomakeskeinen NoSQL

Yksi monien NoSQL-DBMS: ien ominaisuuksista on "data-aggregaattien" käyttö, jotka koostuvat joukosta tietoja, joita "usein tarkastellaan / muokataan samanaikaisesti" ja jotka voidaan ottaa käyttöön itsenäisille palvelimille.

Tarkastellaan esimerkkinä verkkokauppasovellusta, joka on suunniteltu siten, että sillä on usein pääsy asiakkaan tietoihin (osoitteet jne.) Ja hänen ostohistoriaansa (esimerkiksi tarjoamaan hänelle alennuksia).

Tyypillinen relaatiotietojärjestelmä mallintaa tätä järjestelmää luomalla taulukon asiakastiedoista ja ostotaulukon ja suorittamalla sitten jälkimmäisen yhdistämisen kullekin tapahtumalle. Tämä arkkitehtuuri voi aiheuttaa ongelmia, kun asiakkaiden / ostosten määrä tulee tärkeäksi ja sitä on vaikea jakaa useiden palvelimien välillä.
Sitä vastoin tyypillinen NoSQL DBMS -arkkitehtuuri pyrkii mallinnamaan tämän ongelman joukkoina aggregaatteina, jotka koostuvat asiakkaasta ja hänen ostoksistaan. Tämä arkkitehtuuri on helpommin skaalautuva. Nämä aggregaatit ovat todellakin vain vähän vuorovaikutuksessa toistensa kanssa ja ne voidaan helposti jakaa palvelinjoukolle. Toisaalta tämä arkkitehtuuri voi aiheuttaa ongelman, jos jostain syystä joudumme suorittamaan pyyntöjä, jotka eivät vastaa välittömästi harkittuja käyttötapauksia. Esimerkiksi pyyntö asiakkaiden tai ostojen kokonaismäärän laskemiseksi voi olla vähemmän tehokas kuin relaatiojärjestelmässä, joka pitää kaikki asiakkaat (tai ostot) yhdessä taulukossa.

Kaaviokeskeinen NoSQL

Kaavio suuntautunut tietokantoja käytetään tallentaa tietoja graafisessa muodossa ja helpottaa kirjoittamista kyselyt poistamalla useimmat liitokset. Relaatiotietokantoihin verrattuna näiden tietokantojen tehokkuus vaihtelee järjestelmien ja tehtävien sekä kokoonpanojen mukaan. Nämä tiedot ovat tyypillisesti sosiaalisten verkostojen, liikenneverkkojen, topologioiden tai asiakirjasuositussysteemien tietoja.

Erotamme yleensä triplestoreet graafikeskeisistä tietokannoista. Kuvaajatietokannat toimivat erityyppisten kaavioiden kanssa (esim. Painotetut, klusterit, kaaviot ja sekataulukot) ja tarjoavat usein paremman suorituskyvyn kaavioiden läpikäynneille. Triplestores hoitaa yksinomaan binary kuvaajat RDF kolminkertaistaa (siis keskitetty suhteet), mutta tarjoavat päätelmiä. Kyselyn kielet riippuvat tietokannoissa triplestores toimivat yksinomaan SPARQL kielen , katso yksityiskohtainen artikkeli siitä kyselykielten.

Saat kuvaajan suuntautunut tietokannat , tietojen käytön skeema ei ole aina välttämätöntä.

Skeematon NoSQL

Ensimmäinen vaihe relaatiotietokannan luomisessa on määritellä sen kaava, toisin sanoen kaikki sen muodostavat taulukot ja näiden taulukoiden kaikki kentät. Tämä vaihe luo tietyn jäykkyyden toteutuksessa, merkitsee melko selkeää näkemystä sovelluksen kehityksestä ja voi aiheuttaa ongelman, jos kerättyjen tietojen rakenne muuttuu ajan myötä. Skeemattomat NoSQL-järjestelmät voivat ohittaa tämän vaiheen ja tallentaa heterogeenisiä tietoja syötettäessä. Tämä käyttö mahdollistaa suuren joustavuuden ja mukautuvuuden tietokantatasolla. Haittapuoli on, että tietokannan lukevien sovellusten on kyettävä integroimaan heterogeenisempi data monimutkaisemmalle rakenteelle.

Muu

ACID ominaisuudet varmistaa, että jos useat käyttäjät ovat samanaikaisesti tietojen muuttuessa, kaikki muutokset sisällytetään tietyssä järjestyksessä ja hallitusti siten, että niillä johdonmukainen tulos (tietojen eheys) kanssa Muutoshistorian tekemä kukin. ACID-ominaisuuksien tiukka käyttöönotto johtaa merkittäviin ohjelmistokustannuksiin ja heikompaan suorituskykyyn vastaavalla laitteistoinfrastruktuurilla.

DBMS hakemistot toimi mallina nostaa joidenkin näiden rajoitusten käyttöön perustuvan, erityisesti tapauksissa, joissa valtaosa tietokantojen muuttamatta koostuu lukemat (tässä tapauksessa vain pysyvyys omaisuuden alalla).

Selviytyäkseen suurista tietomääristä, joita voidaan käyttää eri puolilta maailmaa, on välttämätöntä pystyä toistamaan nämä tiedot fyysisissä koneissa, tätä kutsutaan hajautetuksi ympäristöksi. CAP teoreema osoittaa, että se ei ole mahdollista täysin taata HAPPO liiketoimet hajautetussa ympäristössä.

Paxos protokolla on suorituskyvyltään, että algoritmin konsensus Chandra-Toueg (in) hajautetussa ympäristössä ja joita voidaan käyttää käytännön sovelluksissa, erityisesti pilvi. Tämä protokolla on mahdollista sisällyttää sovellukseen pitäen osittain ACID-rajoitukset.

Markkinoilla olevat ratkaisut toteuttavat tämän protokollan lisäämällä omat tekniikkansa rajoittamaan ACID: n mahdottomuuden seurauksia tietoja kirjoitettaessa ja päivitettäessä.

Markkinoida

Relaatiotietojärjestelmiä käytetään yrityksissä laajalti. Mitoitettu tietomäärälle ja useille yrityksen tyypillisille käyttäjille heidän päätehtävänsä on tapahtumien käsittely .

Heillä on kuitenkin rajoituksia, kun niitä käytetään laajemmassa laajuudessa, kuten suosittu verkkosivusto kuormituksen jakautumisessa ( kuormituksen tasapainottaminen ), jota miljoonat kävijät käyttävät ympäri maailmaa: edellyttävät sitten relaatiotietojärjestelmien kalliita ohjelmistoja ja tietokoneita sekä vähän tunnettuja optimointitaitoja.

Siksi tällä markkinasegmentillä on NoSQL- ohjelmisto , joka on suunniteltu erityisesti Internet- tyyppiseen käyttöön . Nämä tuotteet hylkäävät tiedon matriisiesityksen ja SQL- komentokielen vastineeksi yksinkertaisuuden, suorituskyvyn ja ennen kaikkea skaalautuvuuden lisäämiseksi . Täytäntöönpanon monimutkaisuuteen liiketoimen käsittelyn on pienennetty, jotta saavutetaan yksinkertaisempi ja erikoistuneita palveluita.

Helppo toteuttaa, tietojen tallennus assosiatiivisten matriisien avulla (kutsutaan avaimeksi / arvoksi ) on ollut olemassa tietokantahistorian alusta lähtien vuonna 1970. Kielet, kuten Perl ja PHP, ovat tehneet heistä tuttuja ohjelmoijia. Uusiin vaatimuksiin nähden ja suuren yleisön sivustoja, jotka ilmestyivät 2000-luvulla ja helppous täytäntöönpanon yhdistys pöydät ovat johtaneet syntymistä näitä ratkaisuja. Heillä on yhteistä SQL-kielen hylkääminen, ja siksi niitä kutsutaan NoSQL: ksi . Tämä ei tarkoita, ettei kukaan koskaan tarjoa tätä kieltä vaihtoehtona .

Vuonna NoSQL DBMS markkinoilla ovat Cassandra , MongoDB , Voldemortin, CouchDB ja SimpleDB . IT-ammattilaisten vuonna 2010 tekemässä kyselyssä 44% vastaajista vastasi, etteivät olleet koskaan kuulleet NoSQL: stä.

Esimerkkejä

Esimerkkejä NoSQL-tuotteista:

Accumulo , Apache Foundation, Apache License 2.0 , Hadoop-johdannainen parannetuilla suojausominaisuuksilla
Berkeley DB , Oracle Corporation, on kaksi ilmaista ja omistettua lisenssiversiota
BigTable , Google, yksityinen, alkaenToukokuu 2015 on olemassa julkinen versio omalla lisenssillä
Hypertable , Zvents, GPL 2,0 sponsoroima Baidu vuodesta 2009
Cassandra , Apache Foundation, Apache License 2.0 , jota Twitter, Digg ...
CouchDB , Apache Foundation, Apache 2.0 -lisenssi , asiakirjapohjainen NoSQL
DEX / Sparksee , Sparsity Technologies, oma, kaaviokeskeinen NoSQL
DocumentDB, Microsoft Azure, omistaja
DynamoDB (in) , Amazon, omistaja, käytetään pääasiassa Amazon Web Services -palvelun kautta
Elassandra, parannettu versio Cassandrasta, joka integroi Elasticsearch-hakukoneen Apache 2.0 -lisenssin alla
HBase , Apache Foundation, Apache 2.0 -lisenssi , johdettu Hadoopista, jota erityisesti Facebook käyttää
MongoDB , MongoDB Inc., GNU AGPL , asiakirjapainotteinen NoSQL
Neo4j , Neo Technology Inc, GNU GPLv 3 ja GNU AGPLv 3, NoSQL-suuntautunut kaavio
OrientDB , OrientDB Ltd, Apache 2.0 -lisenssi , NoSQL-suuntautunut kaavio
Voldemort-projekti , LinkedIn, yksityinen julkisilla versioilla Apache License 2: n alla, hajautettu tietovarasto
Redis , Salvatore Sanfilippo sponsoroi RedisLab , BSD-lisenssi
Riak , Basho Technologies, Apache License 2.0 maksullisilla lisäosilla (oma), innoittamana DynamoDB
SimpleDB (Amazon.com), saatavana Amazon Web Services -palvelun kautta
Oracle NoSQL (in) , Oracle Corporation, omistaja
MentDB Heikko, Jimmitry Payet, GNU GPLv3 , NoSQL ja prosessinhallinta

Relaatiotietokannat, joissa on NoSQL-käyttöliittymä:

MySQL InnoDB- moottorilla ja memcached-käyttöliittymällä

Huomautuksia ja viitteitä

Erityisesti siksi, että relaatio-DBMS (Postgres, Oracle, SQLServer ...), vaikka se ei kuulu vain " SQL: ään ", ei yleensä sisälly "NoSQL" -perheeseen
esimerkiksi olio-DBMSs , vaikka "ei-SQL", ei yleensä katsota kuuluvan "ei-SQL" perheen.
(en) Pramod J.Sadalage ja Martin Fowler , NoSQL Distilled: A Short Guide to Emerging World of Polyglot Persistence , Addison-Wesley Professional, 8. elokuuta 2012 ( ISBN 0321826620 ) .
(en) Shashank Tiwari, Professional NoSQL , John Wiley & Sons , 2011 ( ISBN 9781118167809 )
(sisään) Nick Rozanski, Eoin Woods, ohjelmistojärjestelmäarkkitehtuuri: Työskentely sidosryhmien kanssa näkökulmista ja näkökulmista , Addison-Wesley ( ISBN 9780132906128 )
30 petatavua Facebook-siirtoon
Huomaa: Carlo Strozzi käytti ensimmäistä kertaa vuonna 1998 termiä "NoSQL" ilmaisemaan relaatiojärjestelmää, joka ei käytä SQL-kieltä ( " NoSQL: A Relational Database Management System " ). Tämä aikaisempi käyttö on sattumaa, joka ei liity DBMS-perheeseen, josta keskusteltiin Tämä artikkeli.
(in) " Ei SQL: lle? Tietokantojen vastainen liike saa höyryä ” .
(in) " Benchmark: PostgreSQL, MongoDB ollut Neo4j, OrientDB ja ArangoDB " on arangodb.com
Hayashibara, Naohiro , Urbán, Péter , Schiper, André ja Katayama, Takuya , " Suorituskyvyn vertailu Paxosin ja Chandra-Touegin konsensusalgoritmien välillä ", Infoscience EPFL ,2002( lue verkossa , tutustunut 19. tammikuuta 2018 )
Gustavo MD Vieira ja Luiz E. Buzato , " The Performance of Paxos and Fast Paxos ", arXiv: 1308.1358 [cs] ,6. elokuuta 2013( lue verkossa , tutustunut 19. tammikuuta 2018 )
Parisa Jalili Marandi , Samuel Benz , Fernando Pedone ja Ken Birman , " Practical Experience Report: The Performance of Paxos in the Cloud ", arXiv: 1404.6719 [cs] ,27. huhtikuuta 2014( lue verkossa , tutustunut 19. tammikuuta 2018 )
(fi-FI) " Kuinka Clustrix ylläpitää happoa klusteroidussa ympäristössä - Clustrix " , Clustrix ,16. toukokuuta 2013( lue verkossa , tutustunut 19. tammikuuta 2018 )
(in) " Distributed Transactions " osoitteessa www.cs.rutgers.edu (käytetty 19. tammikuuta 2018 )
(in) Adriaan de Jonge, Essential App Engine: Building korkean suorituskyvyn Java-sovellukset Google App Engine , Addison-Wesley Professional, 2011 ( ISBN 9780321742636 )
(in) Daniel A. Keim, Jörn Kohlhammer, Geoffrey Ellis, Florian Mansmann, Tietokauden hallinta - ongelmanratkaisu visuaalisen analyysin avulla ( ISBN 9783905673777 )
(in) Pete Warden Big Data Glossary , O'Reilly Media, 2011 ( ISBN 9781449314590 )
(in) -viikko: Yllätys: 44% liike-elämän IT-ammattilaisista ei ole koskaan kuullut NoSQL: stä

Katso myös

Aiheeseen liittyvät artikkelit

Kohdekeskeinen tietokanta
Relaatiotietokanta
Sarakekohtainen tietokanta
Asiakirjapainotteinen tietokanta
Kaaviokeskeinen tietokanta
Tietovirran hallintajärjestelmä (DSMS tai SGFD)

Ulkoiset linkit

(en) “ Lopullinen opas ei-suhteelliseen maailmankaikkeuteen! » , Nosql-database.org ( haettu 3. huhtikuuta 2013 ) : Säännöllisesti päivitetty luettelo NoSQL-tietokannoista, joihin on linkkejä projektisivustoille