網絡蜘蛛的(de)解釋-資訊動态-吉維鳥（北京）網絡信息服務有限公司

網絡蜘蛛即Web Spider，是(shì)一(yī)個(gè)> 很(hěn)形象的(de)名字。把互聯網↔&™比喻成一(yī)個(gè)蜘蛛網，那(nà)麽Spider就(jiù)是(s≠hì)在網上(shàng)爬來(lái)≠♠♣π爬去(qù)的(de)蜘蛛。網絡蜘蛛是(shì)通(tōng)™ε≥∞過網頁的(de)鏈接地(dì)址來(lái)尋找網頁↔≈，從(cóng)網站(zhàn)某一(yī)個(gè)頁面（通(tα♦™ōng)常是(shì)首頁）開(kāi)始，讀(dú)取網頁的('φde)內(nèi)容，找到(dào)在網頁中的( ‍σde)其它鏈接地(dì)址，然後通(tōng)過這(zhè)些(xiē)鏈接地α→↔×(dì)址尋找下(xià)一(yī)個(gè)網頁，這(§®•zhè)樣一(yī)直循環下(xià)去(qù)±≈↔↔，直到(dào)把這(zhè)個(gè)網站(zhàn≤±≥$)所有(yǒu)的(de)網頁都(dōu)抓取完為₩≈₽(wèi)止。如(rú)果把整個(gè)互 €↑‌聯網當成一(yī)個(gè)網站(zhàn)，那(nà)麽網絡蜘蛛就(Ωβ× jiù)可(kě)以用(yòng)這(zh ←è)個(gè)原理(lǐ)把互聯網上(shàng)所有(yǒu)的(deεδ∑¶)網頁都(dōu)抓取下(xià)來(lái)。（南(nán)京網站(zhàn)建設設計(jì)δ₩公司）

對(duì)于搜索♣引擎來(lái)說(shuō)，要(yà₩Ωφo)抓取互聯網上(shàng)所有(yǒu)的(de)網頁幾乎→↓σ是(shì)不(bù)可(kě)能(néng)的(de)，從(cóng)目前公ε× ‍布的(de)數(shù)據來(lái)看(kàn)，容量最大(dà)×↑δ的(de)搜索引擎也(yě)不(bù)過是(shì)抓取了(le)整個(•'©✘gè)網頁數(shù)量的(de)百分(fēn)之四十左右。這(zhè)其中≈±×的(de)原因一(yī)方面是(shì)抓取技'σ(jì)術(shù)的(de)瓶頸，無法遍曆所有(yǒu)的(de)網頁♥€ ™，有(yǒu)許多(duō)網頁無法從(cóng)其它網頁的(de)鏈接中找∏ ÷到(dào)；另一(yī)個(gè)原因是(shì)¶↑存儲技(jì)術(shù)和(hé)處理(lǐ)技(jì)術(shù)的(de↑ •×)問(wèn)題，如(rú)果按照(zhào)每γ↕↑個(gè)頁面的(de)平均大(dà)小(xi≤δ≈ǎo)為(wèi)20K計(jì)算(suàn)（包含±♦≠圖片），100億網頁的(de)容量是(shì→★←)100×2000G字節，即使能(néng)夠存儲，下(xià→∑γ )載也(yě)存在問(wèn)題（按照(zhào)一(yī)台機(jī)器↑∞"(qì)每秒(miǎo)下(xià)載20K計(jì)算(suàn)，需要(→♣ yào)340台機(jī)器(qì)不(bù)停的(de)下(xΩε♠ià)載）。

網絡蜘蛛的(de)解釋

13584002120