Apache Tika

Apache Tika

Tiedot
Kehittäjä Apache-ohjelmistosäätiö
Ensimmäinen versio 22. maaliskuuta 2007
Viimeinen versio 1,25 (30. lokakuuta 2020)
Tallettaa gitbox.apache.org/repos/asf?p=tika.git ja gitbox.apache.org/repos/asf/tika.git
Kirjoitettu Java
Ympäristö Java-virtuaalikone
Lue muodot Luokat Java , Waveform Audio File Format , Au , Audio Interchange File Format , Standard MIDI File ( d ) , Microsoft Compressed HTML , Directory Interchange Format ( d ) , DWG , EPUB , Portable Executable , Executable and Linkable Format , XCOFF ( en ) , Adobe Type 1 -tulostimen kirjasimet ( d ) , TrueType , parempi kannettava grafiikka , Apple-kuvakuva , kannettava verkkografiikka , langattoman sovellusprotokollan bittikarttamuoto , Windowsin bittikartta , XCF , .psd , merkitty kuvatiedostomuoto , häviötön WebP ( d ) , JPEG Tiedostonvaihtomuoto , Mbox , Office Open XML , TNEF , MPEG-1/2-äänikerros 3 , MPEG-4 osa 14 , 3GPP ( d ) , 3GPP2 ( d ) , Quicktime-tiedosto ( en ) , edistynyt videokoodaus ( d ) , NetCDF , OpenDocument , kannettava asiakirjamuoto , Zlib , GZIP ( d ) , bzip2 ( d ) , bzip-arkisto ( d ) , XZ , tar , JAR , ZIP , cpio , 7z , RAR , Rich Text Format , pelkkä teksti , Flash Video , Alkuperäinen FLAC ( d ) , Kate ( d ) , Ogg , Opus , Speex , Theora , Vorbis ja AppleSingle ( d )
Lisenssi Apache-lisenssiversio 2.0
Verkkosivusto tika.apache.org ja tika.apache.org

Apache Tika on Apache-säätiön kehittämä työkalupaketti, jonka avulla voidaan havaita, poimia metatietoja ja jäsentää monentyyppisten asiakirjojen ( gzip , .mid , .pdf , tar , zip ...) tekstisisältö .

Tämä Apache Software Foundation -projekti oli aiemmin Apache Lucenen aliprojekti .

Merkittäviä käyttötarkoituksia

Noin 400 toimittajaa käyttää Tikaa yhdessä Solrin kanssa analysoimaan Panama Papersin aikana vuotaneita 11,5 miljoonaa asiakirjaa .

Viitteet

  1. "  https://projects.apache.org/json/projects/tika.json  " (käytetty 8. huhtikuuta 2020 )
  2. "  https://mvnrepository.com/artifact/org.apache.tika/tika/1.25  "
  3. http://www.ibm.com/developerworks/opensource/tutorials/os-apache-tika/index.html
  4. (in) Thomas Brewster , "  salattuja asemia Amazonin Cloud - Amazing Flight Panaman Papers  " on Forbes ,5. huhtikuuta 2016(käytetty 15. huhtikuuta 2016 )
  5. Reynald Fléchaux, "  Linkurious: Big Data start-up that surfing the Panama Papers  " , osoitteessa Silicon.fr , 6. huhtikuuta 2016 ( luettu 19. joulukuuta 2018 )

Ulkoiset linkit