為什麼搜索引擎可以搜索到那麼多東西?
搜索引擎使用被稱為“網絡爬蟲”的程序來抓取網頁上的所有鏈接。由於互聯網的特性,大多數Web頁面都可以通過其他頁面的鏈接得到訪問。自有限的少數Web頁面出發,網絡爬蟲可以訪問絕大多數的Web網頁。通過這種方式搜索引擎就能收錄很多的網頁內容。
現在,人們把越來越多的內容放在互聯網上,據估計,在互聯網上有數萬億的獨立Web頁面。那麼,如何在這些海量的內容中獲得需要的信息呢?人們發明了互聯網搜索引擎來解決這個問題。我們知道,當用户在百度、谷歌或者必應等搜索引擎中輸入關鍵字時,它們會找到包含關鍵字的Web頁面的鏈接,並按一定的順序呈現給用户。那麼,搜索引擎是怎樣幫我們在網上搜索信息的呢?
一般説來,搜索引擎的工作大概分為三個部分。第一個部分稱為信息抓取。搜索引擎使用被稱為“網絡爬蟲”的程序來抓取網頁上的所有鏈接。由於互聯網的特性,大多數Web頁面都可以通過其他頁面的鏈接得到訪問。從理論上説,自有限的少數Web頁面出發,網絡爬蟲可以訪問絕大多數的Web網頁。想象一下,我們可以把互聯網看成一個巨大的蜘蛛網,交叉點是Web頁面,交叉點之間的蛛絲是鏈接,爬蟲從一個交叉點出發,沿着蛛絲就可以到達任何一個交叉點。
找到了Web頁面後,搜索引擎會開始它的第二部分工作:建立索引。簡單説來,就是搜索引擎從Web頁面中提取關鍵字,並把頁面信息甚至是整個頁面的內容按照一定的規則保存在自己的數據庫裏。這樣做的目的是使得信息能夠儘快被找到,如果搜索引擎只是簡單地把頁面無規律地存放的話,每次檢索都要遍歷所有保存的信息,那就失去了搜索引擎的意義了。舉例來説,如果搜索引擎要為一個介紹動畫片《西遊記》的頁面建立索引,那麼“孫悟空”、“西遊記”、“唐僧”、“吳承恩”等詞一般都會成為該頁面索引的一部分。值得一提的是,由於中文的特殊性(英文以詞為單位,詞和詞之間用空格分隔,中文以字為單位,詞和詞之間沒有明顯的分隔),在提取關鍵字之前,一般還要對頁面進行分詞處理。
完成了前兩部分工作,搜索引擎就可以向用户提供搜索服務了。搜索引擎拿到用户輸入的關鍵字,檢索自己的數據庫,並把呈現出的搜索結果頁面展示給用户。比如説,我們搜索“孫悟空”時,由於在建立索引時,動畫片《西遊記》的頁面特徵已經被存放到數據庫中了,那麼就可以通過“孫悟空”索引,把該頁面的鏈接返回給用户。此外,返回的結果也會包含其他結果,例如連環畫《西遊記》的頁面、書籍《西遊記》的頁面等。
-
孕期和哺乳期可以喝奶茶嗎?
操作方法(01)人生苦短,孕期太長,禁忌太多,實在荒唐。為寶寶好是應該的,委屈自己也是不對的,其實在孕期和哺乳期不應該辜負的,除了愛,還有美食,當然還有某些“垃圾食品”。非常健康的食品往往是不太好吃的,讓人上癮戒不掉的食品經常是不太健康的,奶茶就是其中之一。(02)愛是克...
-
短信可供行程證明,怎麼進行短信行程證明
移動(01)打開手機短信,點擊新建信息,在收件人一欄中輸入【10086】,然後在短信內容輸入框中輸入【CXMYD】,接着點擊發送即可。(02)短信發送成功後,接着便坐等中國移動通信回覆短信內容。當收到移動通信回覆的短信內容後,根據短信要求,在有效時間內發送數字【1】回覆,即可確...
-
空氣炸鍋的危害太可怕了
(01)空氣炸鍋加熱温度超過120℃,多在180℃~200℃,長期使用會導致食物產生丙烯酰胺類的疑似致癌物。空氣炸鍋具有一定輻射,雖説比較小,但長期使用對人體危害就會增加。(02)烤箱和空氣炸鍋兩者的作用相似,但其實是兩個不一樣的電器,各有各的好處以及缺點,可根據自身需求進行...
-
雙肩皮包十大品牌排行榜
依託百度全網大數據,根據品牌評價以及銷量評選出了2019年雙肩皮包十大品牌排行榜,前十名分別是阿耐洛/Anello、秀包一品、CLASSIPLE、flipped、帕迪歐、牧雨涵袋、BFS、袋鼠/Bandicoot、婕安妮/Joanney、皮匠傳奇。如果您正在查找雙肩皮包什麼牌子好?那麼本雙肩皮...