Apache ORC

Apache ORC

Tiedot
Kehittäjä Apache-ohjelmistosäätiö
Ensimmäinen versio 12. toukokuuta 2015
Viimeinen versio 1.6.7 (22. tammikuuta 2021)
Tallettaa gitbox.apache.org/repos/asf/orc.git
Kirjoitettu Java ja C ++
Tyyppi Tiedostomuoto ( en )
Tietojen sarjamuoto ( d )
Apache Foundation Project ( d )
Lisenssi Apache-lisenssiversio 2.0
Verkkosivusto orc.apache.org

Apache ORC (Optimized Row Columnar) on ilmainen, avoimen lähdekoodin, sarakekohtainen tietojen tallennusmuoto Apache Hadoop -ekosysteemistä . Se on samanlainen kuin muut Hadoop- ekosysteemissä käytettävissä olevat saraketallennustiedostomuodot, kuten RCFile ja Parquet . Se on yhteensopiva useimpien Hadoop- ympäristön tietojenkäsittelyinfrastruktuurien kanssa .

Sisään Helmikuu 2013, Hortonworks ilmoitti Optimized Row Columnar (ORC) -tiedostomuodon yhteistyössä Facebookin kanssa . Kuukautta myöhemmin ilmoitettiin Apera Parquet -muoto , jonka ovat kehittäneet Cloudera ja Twitter .

Vertailu

Apache ORC on verrattavissa tiedostomuotoihin, kuten RCFile ja Parquet - kaikki kolme kuuluvat Hadoop- ekosysteemin saraketietotallennustyyppiin . Niillä kaikilla on parempi pakkaus ja koodaus parantamalla lukutehoa hitaamman kirjoituksen kustannuksella.

Huomautuksia ja viitteitä

  1. "  https://projects.apache.org/json/projects/orc.json  " (käytetty 8. huhtikuuta 2020 )
  2. (in) ORC 1.6.7 julkaistu  " ,22. tammikuuta 2021(käytetty 30. tammikuuta 2021 )
  3. Justin Kestelyn, "  Esittelyssä parketti: pylvässäästöinen tallennustila Apache Hadoopille  " , Cloudera-blogi ,13. maaliskuuta 2013(katsottu 4. toukokuuta 2017 )

Katso myös