搜索引擎的基本工作原理
現在互聯網上存在的網頁數量是數以百億千億計的,這些網站存儲在不同的服務器上,
分佈在世界各地的數據中心和機房。
操作方法
(01)對於搜索引擎來説, 要抓取互聯網上所有的網頁幾乎是不可能的, 從目前公佈的數據來看, 容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。 一方面原因是抓取技術存在瓶頸,無法遍歷所有網頁,有許多網頁無法從其它網頁的鏈接中找到;另一個原因是存儲技術和處理技術的問題,如果按照每個頁面平均大小 20K 計算(包含圖片) ,100億網頁的容量是 100×2000G 字節,即使能夠存儲,下載也存在問題(按照一台機器每秒下載 20K 計算,需要 340 台機器不停的下載一年時間,才能把所有網頁下載完畢) 。同時,由於數據量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網絡蜘蛛只是抓取那些重要的網頁,而評價重要性的主要依據是某個網頁的鏈接深度。
(02)有人會認為搜索引擎在接收到搜索請求時,會實時地從全球所有的服務器上查詢信息,並把查詢結果展示在用户面前,這其實是一種誤解。如果搜索引擎是這樣工作的,那麼查詢一條信息可能要等上好幾年才能得到搜索結果,這還不包括期間網頁發生的變化。實際上, 搜索引擎會預先去拜訪大量的網站, 並把這些網頁的部分信息預先存儲在自己的服務器上,這樣,當用户搜索的時候,其實是在搜索引擎自己的服務器中進行查詢,就像我們在自己的電腦中查詢文件一樣。搜索引擎是非常複雜的技術,但是其基本原理並不複雜,其基本技術包括抓取、索引、排序。
-
隔月普票開錯了怎麼辦
隔月開紅票,再開正確的發票 如果是專票就麻煩了,以後要小心操作方法(01)上月開票後你如果已入賬,則應開具一張與上月相同的紅字普票沖銷(同時應將對方寄回的藍票附在後面粘回收票本),再開一張正確的藍字發票入賬。(02)如上月開票後你末及時入賬則可將收回的普票粘回原處...
-
Vlookup函數的使用技巧
Excel作為日常工作的常用工具,大家很熟悉。提到Excel都會想到函數,如果提到函數,vlookup函數是不得不提的。下面看一下用vlookup函數如何實現根據姓名匹配年齡的例子操作方法(01)題目如下:從左邊的源數據中匹配出右邊姓名的年齡(現實工作中源數據和要匹配的數據往往不...
-
競選演講稿怎麼寫
公開選拔,競爭上崗是任用幹部的重要方式。在競職演講中,演講的成功與失敗對競職有着直接的影響,而演講的成功,首先要有一篇好的演講稿,那麼,競選演講稿該如何寫呢?請看操作方法(01)寫好開場白:一個好的開頭,能馬上鎮住聽眾,使之產生興趣及好感。(02)抓住主體部分:這是演講稿的...
-
5S管理的實施步驟
現如今大部分企業現場管理都不可或缺的導入5S管理,但是5S管理如何導入和實施呢?5S管理是一個系統性管理方式,是有一定步驟的:操作方法(01)第一步是“整理”:5S管理中的第一步是整理,所謂整理就是工作現場的各類物件將要與不要的區分開來,將要的物件留下,去除不要的物件...