• <object id="tbvaa"></object>
  • <object id="tbvaa"></object>
  • <optgroup id="tbvaa"><del id="tbvaa"></del></optgroup>
  • <object id="tbvaa"></object>
    搜索引擎是如何收錄及排序網頁的?
    來源:EIdea瀏覽次數:2563
    搜索引擎優化,我們遇到的最常見的問題之一就是要搞懂“搜索引擎是如何判定哪個結果出現在搜索結果的前列?”,在此,我們參考Google工程師Matt Cutts給出的技術文檔,簡單給大家揭示Google是如何抓取、收錄和給網頁評級的,其他引擎也都遵循此原理,因而只參考此文對號入座即可。


    抓取和收錄
    當你看到出現在搜索引擎的搜索結果的那個網頁之前,搜索引擎在后臺已經做了許多步驟。搜索引擎的第一步是抓取和收錄互聯網上的數十億的網頁,這個工作是由搜索引擎的機器人bot(蜘蛛程序)來完成的,它瀏覽網絡服務器抓取文件。 抓取的程序并不是漫無目的地在互聯網上瞎逛,它訪問服務器的特定的網頁,然后掃描網頁上的超文本鏈接,如果有新的文件也是這樣抓取得;蜘蛛程序給每個得到的網頁一個號碼,這個號碼指向它抓取的網頁。


    蜘蛛程序抓取了很多的網頁,但這些網頁還不是便于搜索的。如果沒有一個索引,你要查詢一個詞,比如“國內戰爭”,搜索引擎的服務器每次都要讀取每一個文件的所有內容。因此,第二步就是建立索引。我們不是去掃描每一個文件的所有內容,我們巧妙地進行數據的“轉換”,列出每一個文件所包含的特定的詞,例如,“國內”這個詞可能出現在文件3,8,22,56,68和92當中,而“戰爭”這個詞出現在文件2,8,15,22,68和77中。


    建立好索引之后,我們就可以開始對網頁進行評級,決定網頁的相關程度。假設有人在搜索引擎的搜索欄輸入“國內戰爭”進行查詢,為了提交搜索結果和對結果進行評分,我們要做兩件事:

    1. 找到包含用戶查詢的詞的網頁

    2. 給符合的網頁按照相關程度進行評級

    搜索引擎開發出一個有趣的技巧來加速第一步:搜索引擎不是把整個索引存儲在一臺功能強大的計算機上,而是用千百個計算機來存儲這些信息。因為任務被分解到許多的計算機,可以更快地找到所需的答案。 詳細解釋一下,假設一本書的目錄有30頁,如果一個人要在目錄中查尋資料,每次查詢都要花幾秒鐘;如果用30個人每人查詢一頁目錄,顯然要比一個人查詢的速度快很多。同樣的,搜索引擎將數據分別存儲在許多計算機上,這樣搜索的速度會大大加快。


    我們是如何找到那些包含用戶搜索的詞的網頁呢?回到“國內戰爭”的例子,“國內”這個詞出現在文件3,8, 22, 56, 68 和92; “戰爭”出現在文件2, 8, 15, 22, 68和77,記下同時出現這兩個詞的文件。


    國內 3 8 22 56 68 92
    戰爭 2 8 15 22 68 77
    國內 戰爭 8 22 68


    這樣我們可以清楚地發現“國內”、“戰爭”這兩個詞同時出現的在三個文件里 (8, 22, 和68)。 含有這幾個字的列表叫做“位置列表”,搜索文件包含這兩個字,這叫做交叉搜索位置列表。(較快的交叉搜索的方法是同時進行搜索,如果一個搜索列表,22到68,那另一個就可以開始搜索其他的)


    對結果進行評級
    現在我們已經有了一些包含用戶搜索的關鍵詞的網頁,我們要對它們的相關程度進行評級。搜索引擎用許多參數進行評級。這當中PR算法是眾所周知的。PageRank評估兩個因素:1、有多少個網頁鏈接到這個網頁,這些鏈接網頁的網站的質量如何。通過PageRank,五六個高質量的站點的鏈接,比如www.cnn.com和www.nytimes.com比其他較差的網站的鏈接要有價值的多。


    但是除了PageRank,我們還用許多其它的參數來進行評級。例如,如果一個文件包含“國內”和“戰爭”這兩個詞排在一起,這個文件可能比一個討論革命戰爭的文件(在文件的某個地方使用“國內”)的相關程度高。還比如假設一個網頁的標題是“國內戰爭”,比另一個標題為“19世紀美國服裝”的網頁相關度高得多。


    同樣的,如果“國內戰爭”在網頁中出現多次的網頁比只出現一個的網頁相關的程度也要高。 假設你是搜索引擎,選擇一個詞查詢,比如:國內戰爭或回收,在搜索引擎上查詢,從結果中挑選三到四頁打印出來。從每一張打印的頁面上找出你的搜索語句的每一個字然后用熒光筆標出來,然后把這幾頁貼在墻上,退后幾步瞇著眼看,當你不知道頁面的內容,僅僅能看到那些有顏色的方塊,你認為那一頁是最相關的呢?是不是有著大的標題和多次重復出現的顏色代表了較高的相關程度?你喜歡這些字出現在頂端還是底部?這些字出現的頻率如何?這也是搜索引擎如何判斷網頁的相關程度。



    原則上,搜索引擎總是試圖找出最可靠的和最相關的網頁。如果兩個網頁按照查詢的語句大致有相同的信息,搜索引擎通常選擇比較信得過的網站的網頁。當然,如果有一些因素表明這個網站的網頁相關度更高,搜索引擎經常也選擇PageRank較低的網站。


    一旦搜索引擎完成了文件的列表和它們的評分,就給出得分最高的網頁。搜索引擎同時從網頁中摘錄一小段包含查詢的關鍵詞的句子;給出網頁的鏈接。

    成功案例

    紋身關鍵詞優化

    服務別人前得先證明自己的實力

    做好網站的SEO關鍵詞排名,企業真有做不完的單!