Deep Web (Englanti Web Deep ), jota kutsutaan myös syvä internet tai web näkymättömiä (epätarkka termi) kuvataan arkkitehtuuri rainan osan kankaalle ei indeksoi suuret yleisiä hakukoneita . Tätä termiä käytetään joskus myös väärinkäyttäjällä osoittamaan järkyttävää ja ei kovin näkyvää sisältöä, jonka verkosta löytyy.
Vuonna 2001 Michael K. Bergman sävelsi ilmaisun syvä verkko hakukoneiden sanastoon . Tämä termi on rakennettu päinvastoin kuin pintaverkko tai viitattu verkko . Se edustaa verkon osaa, johon yleiset hakukoneet eivät viittaa (jotkut moottorit, kuten BASE , ottavat huomioon tämän verkon osan). Syvä internet kuvailee tekninen seikka riippumatta sisällön.
Kaikki verkkosivustot voivat sisältää sivuja syväverkossa . Se sisältää verkkoviestit , verkkopankit tai sivustot, joilla on rajoitettu pääsy tai jopa osittain tai kokonaan maksettu (katso Syyt indeksoinnin estämiseen ).
”Meidän on tehtävä ero syvän verkon ja maanalaisen internetin välillä. »(Englanniksi darknet), päällekkäinen verkko, jossa on anonymisointitoimintoja. Syvä verkko on indeksoitava, mutta ei indeksoitu web-sisältö. Se ei ole myöskään nimettömyysverkko (verkkopalvelut, joihin pääsee esimerkiksi Torin , Freenetin , I2P: n jne. Avulla ).
Ilmaisua " syvä verkko " käytetään säännöllisesti tiedotusvälineissä viittaamaan verkkosivustoihin, joiden sisältö tai palvelut ovat haitallisia tai laitonta. Tällöin tiedotusvälineet eivät enää puhu vain piilotetuista tai näkymättömistä sivustoista teknisessä mielessä, kun hakukoneet viittaavat niihin, vaan sosiaalisemmassa mielessä niiden heikon näkyvyyden herättämiseksi.
Hämmennys on säännöllistä, myös yleisessä lehdistössä samoin kuin vuonna heinäkuu 2017kun eräissä lehdissä ottaa tiedot Agence France-Presse ja virheellisesti määritellä syvä internet olevan "vain pääsee erityisten verkot".
Hämmennys pimeän verkon kanssa on joskus täydellinen, kuten artikkelissa julkaistiinmaaliskuu 2017Rtl.be -sivustolta voimme lukea, että " syvä verkko on [...] toisessa verkossa, Internetin rinnalla. Sivustojen URL-osoitteet päättyvät .onioniin [...] ”, joka vastaa vain tummaa verkkoa ja tarkemmin Toria .
Indeksoijat ovat ohjelmia käytetään hakukoneiden selata verkkoa. Uusien sivujen löytämiseksi nämä robotit seuraavat hyperlinkkejä . Syvät resurssit ovat niitä, joihin hakukoneet eivät pääse helposti.
Syvät verkkoresurssit voidaan luokitella yhteen tai useampaan seuraavista luokista:
(katso lisätietoja syistä indeksoinnin estämiseen ).
BrightPlanetin heinäkuussa 2001 tekemässä tutkimuksessa arvioitiin, että syvä verkko voi sisältää 500 kertaa enemmän resursseja kuin hakukoneiden indeksoima verkko. Nämä resurssit ovat lisäksi erittäin laadukkaita, varsinkin koska tiedostojen pakkaaminen on vähemmän tärkeää, mutta usein erittäin laadukkaita.
Mukaan erikoistunut sivusto GinjFo The syvä internet edustaa 96% koko web taas pintaan rainan osuus on vain 4% sisällöstä.
Vuonna 2008 , näkymätön web 70 osuus 75% koko Internet-liikennettä , noin biljoona on verkkosivuja ei ole indeksoitu.
Erittäin tärkeä osa verkkoa on teoreettisesti indeksoitavissa, mutta moottorit eivät itse indeksoi sitä. Jotkut kirjoittajat viittaavat tässä tapauksessa "web-läpinäkymättömän" ( läpinäkymätön verkko ) tai "verkko melkein näkyvä" ( lähes näkyvä verkko ) -verkkoon .
Yhteenvetona voidaan todeta, että syvä verkko ja läpinäkymätön verkko ovat molemmat Internetin käyttäjien saatavilla verkossa, eikä hakukoneita indeksoida niitä, mutta läpinäkymätön verkko voidaan indeksoida.
Moottorien algoritmit ovat samankaltaisia (esim. PageRank ), indeksoidut vyöhykkeet limittävät osittain hakukoneita toiseen. Indeksointirobottien aineelliset resurssit eivät merkittävistä aineellisista resursseista huolimatta pysty seuraamaan kaikkia heille teoreettisesti näkyviä linkkejä, jotka (jättimäinen) verkko sisältää.
Saksalaisten tutkijoiden ryhmä on tutkinut robottien indeksoinnin käyttäytymistä, kun he joutuvat kohtaamaan sivustoja, jotka sisältävät paljon sivuja. He loivat verkkosivuston, joka koostui 2 147 483 647 sivusta ( 231 - 1). Tämä verkkosivusto on binaarinen puu , joten se on hyvin syvä: tiettyjen sivujen saavuttaminen vaatii vähintään 31 napsautusta. He lähtivät tältä sivustolta muuttumattomana vuodeksi. Tulokset osoittavat, että tällä sivustolla indeksoitujen sivujen määrä on parhaimmillaan enintään 0,0049%.
Jotta voidaan ratkaista tämän ongelman määrän sivuja indeksoidaan tietyn sivusto, Google moottori esitteli Sitemap -protokollan vuonna 2005 . Sen avulla robotille tarjotun sivustokarttatiedoston ansiosta indeksoinnin tehokkuus paranee. Tämä tiedosto on sijoitettu juureen sivuston ylläpitäjä verkkosivuilla .
Jotkut sivut eivät ole robottien käytettävissä verkkosivuston ylläpitäjän tahdon vuoksi. Erityisesti robots.txt- tiedoston käyttö , joka on sijoitettu verkkosivuston juurelle, antaa mahdollisuuden estää kaikki tai osa sivustosta yhteistyössä toimineilta roboteilta, jolloin sivusto pysyy Internetin käyttäjien käytettävissä. On myös mahdollista käyttää meta-robottielementtiä samaan tarkoitukseen sekä estää linkkien seuraaminen ja estää sivujen välimuisti (indeksointioikeudesta riippumatta). Nämä sivut sijoitetaan silloin luokkaan, joka liittyy syväverkon luokkaan: yksityiseen verkkoon .
Verkon omistaja nimeää sivut, jotka on tunnistettava sisällön käyttämiseksi. Oma verkko sisältyy syväverkkoon.