酷知百科網

位置:首頁 > 智慧生活 > 生活常識

暗網是什麼?

暗網一詞最初由Dr.Jill Ellsworth於1994年提出,指那些由普通搜尋引擎難以發現其資訊內容的Web頁面。因爲這些資訊內容是用戶所看不到的,所以被稱爲是暗網。

暗網是什麼?

暗網(Hidden Web)如其釋義所說,通常是指網絡上大部分內容是不能透過靜態連結獲取的,特別是大部分隱藏在搜尋表單之後的頁面只有透過用戶鍵入一系列關鍵詞纔可以獲得。形象的理解是,這些頁面是目前搜尋引擎所無法抓取的網頁、不能檢索到的資訊,即“看不見”的網站,由於當前的搜尋引擎不能索引到或不能在它們的返回結果中顯示這些頁面,因此對用戶來說這部分頁面是隱藏的。

來源

暗網(互聯網) Hidden Web最初由Dr.Jill Ellsworth於1994年提出,指那些由普通搜尋引擎難以發現其資訊內容的Web頁面。從資訊量來講,與現在能夠索引的數據相比,“暗網”更是要龐大得多。根據Bright Planet公司此前發佈的一個名爲《The Deep Web-Surfacing The Hidden Value》(深層次網絡,隱藏的價值)白皮書中提供的數據,“暗網”包含100億個不重複的表單,其包含的資訊量是“非暗網”的40倍,有效高質內容總量至少是後者的1000倍到2000倍。更讓人無所適從的是,Bright Planet發現,無數網站越來越像孤立的系統,似乎沒有打算與別的網站共享資訊,如此一來,“暗網”已經成爲互聯網新資訊增長的最大來源,也就是說,互聯網正在變得“越來越暗”。

暗網是什麼? 第2張

現狀

當然,所謂“暗網”,並不是真正的“不可見”,對於知道如何訪問這些內容的人來說,它們無疑是可見的。2001年,Christ Sherman、GaryPrice對Hidden Web定義爲:雖然透過互聯網可以獲取,但普通搜尋引擎由於受技術限制而不能或不作索引的那些文字頁、檔案或其它通常是高質量、權威的資訊。根據最近對HiddenWeb的調查文獻得到了如下有意義的發現:

(1)Hidden Web大約有307,000個站點,450,000個後臺數據庫和1,258,000個查詢接口。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。

(2)Hidden Web內容分佈於多種不同的主題領域,電子商務是主要的驅動力量,但非商業領域相對佔更大比重。

(3)當今的爬蟲並非完全爬行不到Hidden Web後臺數據庫內,一些主要的搜尋引擎已經覆蓋Hidden Web大約三分之一的內容。然而,在覆蓋率上當前搜尋引擎存在技術上的本質缺陷。

(4)Hidden Web中的後臺數據庫大多是結構化的,其中結構化的是非結構化的3.4倍之多。

(5)雖然一些Hidden Web目錄服務已經開始索引Web數據庫,但是它們的覆蓋率比較小,僅爲0.2%~15.6%。

(6)Web數據庫往往位於站點淺層,多達94%的Web數據庫可以在站點前3層發現。

暗網是什麼? 第3張

暗網分類

一般情況下暗網可以根據其產生原因分爲兩種:

一種是技術的原因,很多網站本身不規範、或者說互聯網本身缺少統一規則,導致了搜尋引擎的爬蟲無法識別這些網站內容並抓取,這不是搜尋引擎自身就能解決的問題,而是有賴整個網絡結構的規範化,百度的“阿拉丁計劃”、谷歌的“雲計算”就是要從根本解決這一問題。

另一個原因則是很多網站根本就不願意被搜尋引擎抓取,比如考慮到版權保護內容、個人隱私內容等等,很多網站都在屏蔽百度、比如最近最大的視頻分享網站優酷也宣佈屏蔽百度一樣,這更不是搜尋引擎能解決的問題了。如果他們能被搜尋引擎抓取到,就屬於違法了。

標籤:暗網