Google搜索引擎的(de)工(gōng)作(zuò)原理(lǐ×∞±¥)

  PPCblog.com呈現(xiàn& )給我們一(yī)幅由Jess Bachman(在WallStats.com₹♠工(gōng)作(zuò))精心描繪的(de‍$∞)示意圖,這(zhè)張流程圖展示了(le)每天擁有(yǒu)3✘☆β億次點擊量的(de)Google搜索按鈕背後搜索引擎在那(nà)不(bù)到(£♦dào)1秒(miǎo)的(de)響應時(shí)間(jiān)內‍¶ε(nèi)所進行(xíng)的(de)處理(lǐ)。

  這(zhè)是(shì)我剛付印的(de)最§₹÷φ新示意圖,這(zhè)張流程圖演示了(le)在你(nǐ)點擊G​σΩoogle搜索按鈕後,在Google返回查詢結果前那(nà)一(yī)眨眼的(≥<↓de)功夫裡(lǐ),Google是(sh₽>ì)如(rú)何處理(lǐ)你(nǐ)的(de≤φ× )搜索請(qǐng)求的(de)?這(zhè)可(kě)是(s₩÷hì)搜索巨人(rén)Google年(nián)赢利額高(gāo)達200億≤₽γ 美(měi)元的(de)殺手級應用(yòng)φα<<,也(yě)是(shì)Internet首屈一(yī)指的(deΩ<)商業(yè)和(hé)技(jì)術(shù)神話(huà),大(dà♣>÷™)家(jiā)肯定都(dōu)想知(zhī)道(dào)Googleε₹₹$這(zhè)棵搖錢(qián)樹(shù)背後的(de)秘密。

  


 

  一(yī)、Google官方對(duì)其搜索"πΩ技(jì)術(shù)的(de)叙述

  我們搜索技(jì)術(shù)的(de)後端軟件(jλσ÷ iàn)會(huì)在服務器(qì)側觸發一(yī)&• ₽系列執行(xíng)時(shí)間(jiān)不(bù)到(dào)1秒(mi₩γ©ǎo)的(de)并行(xíng)計(jì)算(suànφ>),Google問(wèn)世前的(de)傳統搜索引擎的(de)搜索結¥σ✔果嚴重依賴于關鍵詞在頁面上(shàng)出現(xiàn)的(de)頻(pín)±≤♣度,我們使用(yòng)了(le)200多(duō)個(gè)指标信号(ε∏其中包括我們擁有(yǒu)專利的(de)PageRank頁面等級加權算(§∏suàn)法)用(yòng)來(lái)檢查萬維網<β∏•的(de)鏈接結構(佩奇和(hé)布林(lín)最初的(de)想法是(shì)≥✘≥把萬維網的(de)鏈接結構用(yòng)圖論的(de)有λ<>↔(yǒu)向無環圖來(lái)建模)并決定網頁的(♦∏ de)重要(yào)程度,我們假定一(yī)個(gè)網頁的(de)重≠ 要(yào)程度取決于别的(de)頁面對(duì)它的 σ(de)引用(yòng),就(jiù)像學術(shù)論文(♠εδ<wén)中的(de)引用(yòng)指數"•(shù)一(yī)樣,重要(yào)的(de)論文(wén)總是(shì±↔★)會(huì)被很(hěn)多(duō)其< 他(tā)論文(wén)引用(yòng)。然後我們再根據搜索條件(j∞→¶♦iàn)進行(xíng)超文(wén)本δ 匹配分(fēn)析(對(duì)bot抓取的(de)頁ε™α¥面內(nèi)容進行(xíng)關鍵詞倒排索引檢索)确定跟搜索請(qǐn☆>♦g)求最相(xiàng)關的(de)網頁 ​™。綜合最重要(yào)的(de)網頁和('£₩♠hé)跟搜索請(qǐng)求最相(xiàng)關的(÷★♦'de)網頁兩個(gè)方面,我們就(jiù)能(néng)按重要(yàγ♥​σo)程度和(hé)用(yòng)戶搜索請(qǐng)求相(xiàn©₩βg)關程度把查詢結果排序後呈現(xiàn)給我們的(←€de)用(yòng)戶。

  二、數(shù)據中心:Google用(yò$€¥<ng)來(lái)索引世界的(de)塔

  Google的(de)數(shù)據中心高₹φ±÷(gāo)度機(jī)密,我們能(néng)了(le)解到(dào)的(π£δde)不(bù)多(duō):

  1. 在美(měi)國(guó)本土(t&εǔ)有(yǒu)19個(gè)以上(shàng)的(de)數(shù)★>↓據中心,其餘17個(gè)數(shù)據中心‌λ→£分(fēn)布在美(měi)國(guó)以外(wài)的(de)世界∏↔γδ各地(dì)。

  2. 每個(gè)數(shù)據中心有(yǒu)50萬平✔♦ ★方英尺那(nà)麽大(dà),建造一(yī)個(g☆♥$☆è)數(shù)據中心要(yào)花(huā) ☆≥ε費(fèi)約6億美(měi)元。

  3. Google數(shù)據中心是(shì)世界上(shàng)最高(© gāo)效的(de)設施之一(yī),而且σ©也(yě)非常環保,幾乎沒有(yǒu)碳排 α<♠放(fàng)。

  4. 數(shù)據中心使用(yòng)50到(dào)100兆瓦★π的(de)電(diàn)力,由于需要(yào)冷(lε★•λěng)卻,通(tōng)常建在便于用(yòng)水(shuǐ)的(de)地(±α≤φdì)方。

  5. Google服務器(qì)安置在一(yī)個(gè)一(yī)組δ≥容得(de)下(xià)1160台服務器(qì)的(de)λ♣₽σ有(yǒu)房(fáng)子(zǐ)那(nà)β​‌♥麽大(dà)的(de)标準集裝箱容器(qì)中。


三、處理(lǐ)流程:

  1. 你(nǐ)寫博客、或在Twitterβ×上(shàng)推微(wēi)博、更新站(zhàn)點等諸₹★如(rú)此類往web上(shàng)添加內(nèi)容¶₩的(de)操作(zuò)

  2. Google爬蟲(一(yī)種作(zuò)為(wèi¶π)搜索引擎構件(jiàn)的(de)智能(néng)代理(lǐ)程序λ‌)抓取你(nǐ)網頁的(de)title和(héΩ★)description、keyword等內('÷≤nèi)容

  (1) Google bots程序沿鏈接路(lù)徑周遊萬維網,如(rπ€σú)果沒有(yǒu)http路(lù)徑到(dào)σ≥§你(nǐ)的(de)站(zhàn)點,你(nǐ)的(de)站(↔λ&zhàn)點将不(bù)會(huì)被索引

  (2) 如(rú)果你(nǐ)在robots.txt中設置不∞÷∞π(bù)許索引,Google bots程序♣★✔将不(bù)會(huì)抓取你(nǐ)的(de)網頁

  (3) 如(rú)果鏈接到(dào)你(nǐ)$×☆站(zhàn)點的(de)html鏈接上(shàng)有φ∏(yǒu)nofollow标簽,Google bσ¥ots将不(bù)會(huì)從(cóng)這(zhè)些(xiē)鏈接路(↓δ★lù)徑周遊到(dào)你(nǐ)的(de)站(zhàn★δ)點。

  (4) Google也(yě)能(néng)通>™©≈(tōng)過blog軟件(jiàn)或xml☆×☆站(zhàn)點地(dì)圖找到(dào)你(nǐ)的(deφ®₽ )網站(zhàn)

  (5) 從(cóng)PageRank越高₩∞γ™(gāo)的(de)網站(zhàn)鏈接到(dào)你(nǐ)的₽Ω(de)網站(zhàn)的(de)鏈接越多σ↑≥(duō),你(nǐ)的(de)網站(zhàn)的(de)PageR≥✔ank就(jiù)越高(gāo)。

  (6) Google爬蟲将周遊所有(yǒu₩Ω‌)未标注為(wèi)nofollow的(de)鏈接

  3. 一(yī)旦被Google爬蟲訪問(wèn)到εσ↑(dào),網頁幾秒(miǎo)內(nèi)就(jiù)被≥γ索引了(le)

  (1) 網頁內(nèi)容被存儲在一(yī)個(gè)倒¶☆≤♠排索引中

  ① 網頁标題和(hé)鏈接數(shù)據被保存在÷↑一(yī)個(gè)索引中,用(yòng)于廣度優¶σ先搜索

  ② 網頁內(nèi)容保存在另一(yī)個(gè)索引中£σ×∞,以用(yòng)于檢索頻(pín)率不(bù)α ₹高(gāo)的(de)長(cháng)尾、個(gè)性化(huà∞‍)、深度優先搜索

  (2) 當你(nǐ)用(yòng)Google搜索時(shí),你(n•​£ǐ)并沒有(yǒu)在檢索時(shí)時(shí)更新的(de)萬維網,而是( ‍>≥shì)在檢索Google的(de)緩存,Google定期更新其索引庫,§₩→♦在Twitter實時(shí)搜索等的(d ¶★÷e)競争下(xià),Google的(de)索引庫更新周期趨短(duǎn)。

  4. Google基于鏈接評估域名和(hé)網頁的(d ‍∞÷e)總體(tǐ)PageRank值。

  5. 檢查網頁以防止作(zuò)弊行(xíng)為(wèi)

  (1) Google的(de)搜索質量和(₹₹♥hé)反垃圾信息審查和(hé)優化(huà)算(suàn)法

  (2) 1萬多(duō)遠(yuǎn)程測¶™∞試用(yòng)戶評價搜索結果的(de)質量

  (3) Google征請(qǐng)↓∞φ用(yòng)戶對(duì)有(yǒu)PageRank訛詐嫌疑的(d§∏<e)垃圾信息進行(xíng)舉報(bào)

  (4) Google接到(dào) (美(měi)國(guó))數(shù δ)字千年(nián)版權法案的(de)通(tōng)知(zhī≈↕π☆),要(yào)求Google把盜版行(xíng)為(wèi)記錄備案₹δ&

  6. 在對(duì)頁面做(zuò)了(le)損害分(fēn✔₩')析後,現(xiàn)在每個(gè)頁面"♣©都(dōu)有(yǒu)很(hěn)多(duō×εΩ♥)用(yòng)于輔助用(yòng)戶搜索的( ₩de)數(shù)據片(比如(rú)檢索關鍵詞)π→φ↔反向引用(yòng)著(zhe)它

  7. 用(yòng)戶發出搜索請(qǐng)求

  (1)Google搜索質量工(gōng)程師(shī)δ‍Patrick Riley:在大(dà)多(duō)數(shù)Goo™•‍ gle搜索中,你(nǐ)的(de)搜索處于許多(duō)并行(xíng)的(d↑©e)控制(zhì)過程或Google實驗室的(d±""★e)創新項目組過程中,可(kě)以說(shuō)每一(yī)個(gè)查詢請∏≠§£(qǐng)求都(dōu)會(huì)參與一(yī)些(xiē)Goog→ ∞₽le的(de)創意實驗。

  8. Google會(huì)用(yòng)同義詞匹配與你(β€✔nǐ)的(de)搜索關鍵詞語義相(xiàng)近(jìn)的(de)查詢結↓↕α果

  9. 生(shēng)成初步的(de)查詢結ε®果

  (1) 也(yě)許Google宣言能(ε←néng)返回成千上(shàng)萬數(shù)量無限的(d≥↓​™e)查詢結果,但(dàn)一(yī)般隻顯示不(bù)到 ∑(dào)1000條的(de)查詢結果,∞≠<出于“少(shǎo)則得(de),多(duō)則惑”的(de€∞•)考慮。

  (2) 對(duì)查詢結果做(zuò)本地( →dì)化(huà)處理(lǐ),本土(tǔ)站(z←↕¥≠hàn)點在查詢結果中優先出現(xiànπ"λ")

  10. 對(duì)查詢結果集按權威性×←₽®和(hé)PageRank進行(xíng)排序,重複的(de)查詢↓↔結果被剔除。

  (1) Google根據關鍵詞、廣告類型、用(yòng)戶π↓所處位置找出相(xiàng)關的(de)被競價拍(pāi)賣的‍∞(de)關鍵詞廣告

  (2) 關鍵詞廣告必須遵守當地(dì§σ€★)法律條文(wén)

  ① 廣告業(yè)主的(de)非法廣告将被取締

  ② 如(rú)果關鍵詞的(de)搜索流量過低(dī)或關鍵詞廣告點擊量± ÷÷偏低(dī),則會(huì)被自(zì)動禁用(yβσφ§òng)

  ③ 出于商業(yè)策略,像亞馬遜這(zhè)€Ω©樣的(de)客戶會(huì)給予優惠折扣。

  (3) 關鍵詞相(xiàng)關廣告按收益潛力(對(duì)關 →ε鍵詞進行(xíng)競價拍(pāi)賣後的(de&©←→)廣告質量不(bù)斷進行(xíng)評估)排序

  (4) 對(duì)廣告業(yè)主來(lái)說(sh↔÷uō)廣告內(nèi)容一(yī)般都(dōu)是(shì)固定的(de),≤§但(dàn)有(yǒu)時(shí)使用(yòng)動态關鍵Ω✔¥詞使關鍵詞廣告與搜索關鍵詞相(xiàng)關度更高(gāαδ¥o)

  ①一(yī)些(xiē)廣告本身(shēn)允許增加易變的(de)附屬信息∑₹,比如(rú)網站(zhàn)鏈接、電(diàn)話(huà)号™↔♦α碼、産品鏈接、地(dì)址等

  (5) 當廣告擁有(yǒu)了(le)相(©∞xiàng)當高(gāo)的(de)點擊率,則會(h☆σuì)顯示在搜索結果列表的(de)上(shàng)方,以使其更顯眼。¥♣

  (6) 其餘的(de)廣告依序顯示在相(xiàng)應的(de)位置≥$

  11. 對(duì)查詢結果進行(xíng)過σ"濾處理(lǐ)

  (1) 對(duì)通(tōng)常的(de)查詢(比如(rú)在↓>♣↓Google首頁上(shàng)發出的(dλ∞≤±e)搜索請(qǐng)求),Google會↓ελ(huì)把相(xiàng)關的(de)專題λ♠性垂直搜索結果(比如(rú)新聞、購(gòu)物(wù)、視(s↑‍δ hì)頻(pín)、書(shū)籍、地(dφ€¶ì)圖等)也(yě)加到(dào)返回的(de)查詢結果中

  (2) 個(gè)性化(huà)方面:用(y₽×≤òng)戶訪問(wèn)過的(de)網站(zhàn)在Ω<☆查詢結果列表中會(huì)更靠上(shàng)

  (3) 大(dà)量使用(yòng)錨點的(de)網站(zhàn)有γδ✔(yǒu)可(kě)能(néng)被從(cóng)查詢結果中 ≤‍删除

  (4) 搜索結果集的(de)聚簇性:如(<δrú)果網頁被其他(tā)高(gāo)Page♦±♣Rank的(de)網站(zhàn)引用(yòngπΩ♥),則網頁的(de)重要(yào)性會(huì)‍β✔大(dà)大(dà)提高(gāo)。

  (5) 趨勢分(fēn)析:對(duì)搜索流量爆增或有(yǒu)大(d•σε&à)量新聞的(de)搜索關鍵詞,Google會(huì)在σ£新的(de)查詢結果中增加額外(wài)的(£★‍de)PageRank權值。(Google有(yǒu)ε <反映關鍵詞搜索流量的(de)Google趨勢專題頁面)

  (6) 同一(yī)個(gè)域名下(xià)的(de)多$×β✘(duō)個(gè)網頁如(rú)果具有(yǒu)相(xiàng)同的  ≤(de)PageRank會(huì)被歸為(wèi)一(yī)組₹±✔。

  12. 最終返回給浏覽器(qì)端的(de)用(yòng)戶一(yī)個(☆λgè)人(rén)性化(huà)的(de)、布局良好(hǎo)的™α±(de)、查詢結果和(hé)廣告泾渭分(fēn)明(míng)的(de)有(Ω★≤≥yǒu)機(jī)查詢結果頁面。

  所有(yǒu)這(zhè)些(xiē)β✔£步驟在總共不(bù)到(dào)1秒(mi↕∑ǎo)的(de)響應時(shí)間(jiān)內(nèi)完成,←<每天3億次的(de)點擊量給Googleφ≈ 帶來(lái)了(le)超過200億美(měi)元的(de)年(niá©'♥₩n)收入。