圖書(shū)館管理(lǐ)員(yuán)們提出最多(duō)的(de)問(wèn)題之一(yī)是(shì):“對(duì)于什(shén)麽樣的(de)結果應該位£于搜索列表的(de)最上(shàng)方,Google是(shì)如(rú)何選擇的(de)?”現(xiàn)在品質工(gεōng)程師(shī)馬特-卡茲介紹了(le)快(kuài)速入門(mén)的(de)知(zhī)識,解釋了(le)Google是¥(shì)如(rú)何在網上(shàng)爬行(xíng)和(hé)索引,以及如(rú)何評定搜索結果等級的(de)。馬特也(yě)向σ學校(xiào)圖書(shū)館管理(lǐ)員(yuán)提出建議(yì),告訴他(tā)們如(rú)何輔導學生(¶shēng)。
爬行(xíng)和(hé)索引
在你(nǐ)浏覽包含了(le)Google搜索結果的(de)網頁之前,要(yào)發生(shēng)很(hěn)多(duō)事(shì)情。≥首先是(shì)在萬維網數(shù)以十億計(jì)的(de)網頁上(shàng)爬行(xíng)和(hé)索引,這(zhè)₩個(gè)工(gōng)作(zuò)是(shì)由Googlebot完成的(de),它負責與全球的(de)網絡服務器(qì)連接以收集文(wén©)件(jiàn)。爬行(xíng)不(bù)是(shì)真的(de)在網上(shàng)漫遊,而是(shì)訪問(wèn)網絡服務器(qì)返回到(dàoΩ)一(yī)個(gè)特定的(de)網頁上(shàng),接著(zhe)掃描該網頁建立超鏈接并為(wèi)每一(yī)個(gè )網頁編上(shàng)号碼。爬行(xíng)可(kě)收集大(dà)量的(de)文(wén)件(jiàn),但(dàn)這(zhè)些(xiē)文(wén)件(jiàn)還(hái)不(bù)£能(néng)直接用(yòng)于搜索。
如(rú)果沒有(yǒu)索引,在你(nǐ)想查詢如(rú)“civil war”(南(nán)北(běi)戰争)等內(nèi)容時(shí),Googlδe的(de)服務器(qì)将不(bù)得(de)不(bù)在你(nǐ)每次搜索時(shí)閱讀(dú↓)每一(yī)份文(wén)件(jiàn)的(de)內(nèi)容。因此第二個(gè)步驟是(shì)要(yào)建立一(yī)個(gè)索引,這(zhè)樣就(jiù)需要(yào↑)“轉換”爬行(xíng)所獲得(de)的(de)數(shù)據。為(wèi)了(le)不(bù)必在每一(yī)份文(wén)件(jiàn)上(shàng)掃描₽每一(yī)個(gè)單詞,就(jiù)需要(yào)在數(shù)據上(shàng)做(zuò)些(xiē)文(wén)章(zhāng),以便顯示包含了(le)特定單詞的(de)所有(yǒ±u)文(wén)件(jiàn)。例如(rú),假設單詞“civil”在編号為(wèi)3、8、22、56、68和(hé)92的(de)文(wén$)件(jiàn)上(shàng)出現(xiàn)過,而單詞“war”出現(xiàn)編号為(wèi)2、8、15、22、68和€(hé)77的(de)文(wén)件(jiàn)上(shàng)。
一(yī)旦建立了(le)索引,就(jiù)開(kāi)始對(duì)文(wén)件(jiàn)進行(xíng)等級評定并确定它們的(<de)相(xiàng)關性。假如(rú)某個(gè)人(rén)上(shàng)Google搜索并輸入“civil war”,為(wèi)呈現(xiàn)和(hé)評價搜索結果需要(yàβo)做(zuò)兩件(jiàn)事(shì):一(yī)是(shì)查找包含了(le)用(yòng)戶提問(wèn)的(de)網頁;二是(shì)按照(zhào)相(xiγàng)關性排定匹配網頁的(de)位置。Google已經開(kāi)發出一(yī)個(gè)有(yǒu)α趣的(de)技(jì)術(shù)可(kě)加速第一(yī)步驟的(de)過程:不(bù)是(shì)将所有(yǒu)索引存儲在一(yī)台電(diàn)腦(nǎo)上(shàng),而是(shì)使用(yòn♣g)數(shù)百台電(diàn)腦(nǎo)做(zuò)這(zhè)種工(gōng)作(zuò)。由于任務被分(fēn)配到(dào)很(hěn)多(↕duō)電(diàn)腦(nǎo)上(shàng),使得(de)查詢答(dá)案更為(wèi)迅速。
為(wèi)更加形象地(dì)描述這(zhè)個(gè)過程,可(kě)以設想下(xià)一(yī)本30頁厚書(shū)的(de)索引。如₽(rú)果一(yī)個(gè)人(rén)在索引中查找數(shù)頁的(de)信息,那(nà)麽每一(yī)次搜索都(dōu)至少(shǎo)需要(yào)花(huā)幾秒(miǎo)鐘γ(zhōng)的(de)時(shí)間(jiān);但(dàn)如(rú)果你(nǐ)将索引的(de)每一(yī)頁分(fēn)給不(bù)同的(de)人(rén)去(q∏ù)查找呢(ne)?三十個(gè)人(rén)分(fēn)别查找索引的(de)不(bù)同部分(fēn),要(yào)比一(yī)個¶(gè)人(rén)獨自(zì)查找快(kuài)的(de)多(duō)。同樣,Google也(yě)是(shì)将數(shù)據分≥(fēn)配到(dào)各台電(diàn)腦(nǎo)上(shàng)以便可(kě)以更快(kuài)地(dì)查找文(wén)件(jiàn)。
如(rú)何查找包含了(le)用(yòng)戶提問(wèn)的(de)網頁?讓我們返回到(dào)上(shàng)面舉的(de)“civil war”例子≤(zǐ)。單詞“civil”在編号為(wèi)3、8、22、56、68和(hé)92的(de)文(wén)件(πjiàn)上(shàng),單詞“war”在編号為(wèi)2、8、15、22、68和(hé)77的(de )文(wén)件(jiàn)上(shàng),我們可(kě)以在網頁上(shàng)顯示文(wén)件(jiàn)并尋找包含兩個(gè)單詞的(de)文(wén)件(jiàn)φ(從(cóng)下(xià)表中可(kě)以看(kàn)出是(shì)8、22和(hé)68号文(wén)件(jiàn))。
單詞civil 3 8 22 56 68 92
單詞war 2 8 15 22 68 77
兩個(gè)單詞都(dōu)出現(xiàn) 8 22 68
包含了(le)一(yī)個(gè)單詞的(de)文(wén)件(jiàn)列表被稱為(wèi)“文(wén)件(jiàn)标識列表”,查找包含兩個(gè)單詞的($de)文(wén)件(jiàn)被稱為(wèi)“文(wén)件(jiàn)标識列表的(de)交集”。
評定搜索結果
有(yǒu)了(le)包含用(yòng)戶提問(wèn)的(de)網頁後,就(jiù)該按照(zhào)相(xiàng)關性評定網頁了(le)。Google使用(yòng)了(le)很(h₹ěn)多(duō)技(jì)術(shù),其中PageRank算(suàn)法是(shì)最有(yǒu)名的(de)。PageRank評定的(de)是(shì)兩種事(shì)情↔:從(cóng)網站(zhàn)到(dào)某一(yī)網頁有(yǒu)多(duō)少(shǎo)個(gè)鏈γ接,提供鏈接的(de)網站(zhàn)的(de)排名。使用(yòng)PageRank,來(lái)自(zì)CNN和(h♦é)紐約時(shí)報(bào)網站(zhàn)的(de)鏈接的(de)價值,是(shì)很(hěn)多×(duō)不(bù)太有(yǒu)名網站(zhàn)的(de)兩倍。
除了(le)PageRank外(wài)Google還(hái)使用(yòng)了(le)很(hěn)多(duō)其他(tā)技(jì)術(shù),例如(r®ú)一(yī)份文(wén)件(jiàn)所包含的(de)“civil”和(hé)“war”兩個(gèΩ)單詞靠的(de)很(hěn)近(jìn),就(jiù)比隻使用(yòng)了(le)“war”單詞的(de)包含“Revolutionary War” (獨立戰争)的(de)文(wén)件(jiàn)相(xiàng)關性要(yào)大(dà)的(de)多(duō)。另外(wài)在題目中出現(xiàn)了(le)“civil war”的(de)網頁™,它的(de)相(xiàng)關性就(jiù)比題目為(wèi)“19th Century American Clothing”(19世紀的(de)∏美(měi)國(guó)服裝)要(yào)重要(yào)的(de)多(duō)。同樣如(rú)果“civil war”在網頁上( shàng)出現(xiàn)了(le)數(shù)次,比出現(xiàn)一(yī)次的(de)網頁要(yào)相(xiàng)關的(de)多(duō)。
Google的(de)目的(de)是(shì)要(yào)找到(dào)知(zhī)名度和(hé)相(xiàng)關↔性都(dōu)大(dà)的(de)網頁。如(rú)果兩個(gè)網頁出現(xiàn)匹配提問(wèn)的(de)信息數±(shù)量幾乎一(yī)樣,我們常常會(huì)選擇更有(yǒu)名網站(zhàn)的(de)鏈接。但(d•àn)如(rú)果其他(tā)方面表明(míng)一(yī)個(gè)網頁更為(wèi)相(xiàng)關,也(yě)會±(huì)選擇更少(shǎo)鏈接或更低(dī)排名的(de)網頁。例如(rú),一(yī)個(gè)網頁全篇都(d≥ōu)是(shì)講“南(nán)北(běi)戰争”的(de)內(nèi)容,會(huì)比隻是(shì)略微(wēi)提到(dào)“南(nεán)北(běi)戰争”的(de)網頁更為(wèi)有(yǒu)用(yòng),即使這(zhè)個(gè)網頁是(shì)出現(xiàn)不(bù)太有(Ωyǒu)名的(de)網站(zhàn)上(shàng)。一(yī)旦我們有(yǒu)了(le)文(wén)件(jiàn)的(de)列表和(hé)分(fēn)值,Ω就(jiù)會(huì)選擇最高(gāo)分(fēn)值、最匹配的(de)文(wén)件(jiàn)。
Google從(cóng)包含了(le)提問(wèn)單詞的(de)每一(yī)份文(wén)件(jiàn)中ε提取幾句話(huà)作(zuò)為(wèi)摘要(yào)顯示,接著(zhe)将排好(hǎo)的(de)URLs和(hé)摘要(yào)顯示在搜索結果上(shàn↓g)。正如(rú)你(nǐ)所知(zhī)道(dào)的(de)運行(xíng)一(yī)個(gè)搜索器(qì)γ需要(yào)大(dà)量的(de)計(jì)算(suàn)資源。每一(yī)次搜索需要(yào)500台以上(shàng)的(de)電(diàn₹)腦(nǎo)一(yī)起工(gōng)作(zuò),搜索的(de)時(shí)間(jiān)還(hái)不(bù)到(dào)半秒(miǎo)鐘(zhōng)。

掃碼立即溝通(tōng)
公衆号加關注