網絡蜘蛛的(de)解釋

  網絡蜘蛛即Web Spider,是(shì)一(yī)個(gè)> 很(hěn)形象的(de)名字。把互聯網↔&™比喻成一(yī)個(gè)蜘蛛網,那(nà)麽Spider就(jiù)是(s​≠hì)在網上(shàng)爬來(lái)≠♠♣π爬去(qù)的(de)蜘蛛。網絡蜘蛛是(shì)通(tōng)™ε≥∞過網頁的(de)鏈接地(dì)址來(lái)尋找網頁↔≈,從(cóng)網站(zhàn)某一(yī)個(gè)頁面(通(tα♦™ōng)常是(shì)首頁)開(kāi)始,讀(dú)取網頁的('φde)內(nèi)容,找到(dào)在網頁中的( ‍σde)其它鏈接地(dì)址,然後通(tōng)過這(zhè)些(xiē)鏈接地α→↔×(dì)址尋找下(xià)一(yī)個(gè)網頁,這(§®•zhè)樣一(yī)直循環下(xià)去(qù)±≈↔↔,直到(dào)把這(zhè)個(gè)網站(zhàn≤±≥$)所有(yǒu)的(de)網頁都(dōu)抓取完為₩≈₽(wèi)止。如(rú)果把整個(gè)互 €↑‌聯網當成一(yī)個(gè)網站(zhàn),那(nà)麽網絡蜘蛛就(Ωβ× jiù)可(kě)以用(yòng)這(zh ←è)個(gè)原理(lǐ)把互聯網上(shàng)所有(yǒu)的(deεδ∑¶)網頁都(dōu)抓取下(xià)來(lái)。 (南(nán)京網站(zhàn)建設設計(jì)δ₩公司

    對(duì)于搜索​♣引擎來(lái)說(shuō),要(yà₩Ωφo)抓取互聯網上(shàng)所有(yǒu)的(de)網頁幾乎→↓σ是(shì)不(bù)可(kě)能(néng)的(de),從(cóng)目前公ε× ‍布的(de)數(shù)據來(lái)看(kàn),容量最大(dà)×↑δ的(de)搜索引擎也(yě)不(bù)過是(shì)抓取了(le)整個(•'©✘gè)網頁數(shù)量的(de)百分(fēn)之四十左右。這(zhè)其中≈±×的(de)原因一(yī)方面是(shì)抓取技'σ(jì)術(shù)的(de)瓶頸,無法遍曆所有(yǒu)的(de)網頁♥€ ™,有(yǒu)許多(duō)網頁無法從(cóng)其它網頁的(de)鏈接中找∏ ÷到(dào);另一(yī)個(gè)原因是(shì)¶↑存儲技(jì)術(shù)和(hé)處理(lǐ)技(jì)術(shù)的(de↑ •×)問(wèn)題,如(rú)果按照(zhào)每γ↕↑​個(gè)頁面的(de)平均大(dà)小(xi≤δ≈ǎo)為(wèi)20K計(jì)算(suàn)(包含±♦≠圖片),100億網頁的(de)容量是(shì→★←)100×2000G字節,即使能(néng)夠存儲,下(xià→∑γ )載也(yě)存在問(wèn)題(按照(zhào)一(yī)台機(jī)器↑∞"(qì)每秒(miǎo)下(xià)載20K計(jì)算(suàn),需要(→♣ yào)340台機(jī)器(qì)不(bù)停的(de)下(xΩε♠ià)載)。