1、爬蟲:從互(hu)聯網爬取原始網頁數(shu)據,存儲于文檔知識庫(ku)服務器。
2、文檔知識庫(ku)服務器(qi):存儲原(yuan)始網頁(ye)數據,通常是分(fen)布式(shi)Key-Value數據庫(ku),能根據URL/UID快(kuai)速獲取網頁(ye)內(nei)容(rong)。
3、索(suo)(suo)(suo)(suo)引(yin):讀(du)取(qu)原始網頁數據(ju),解析(xi)網頁,抽取(qu)有效(xiao)字段,生(sheng)成(cheng)索(suo)(suo)(suo)(suo)引(yin)數據(ju)。索(suo)(suo)(suo)(suo)引(yin)數據(ju)的(de)生(sheng)成(cheng)方式通(tong)常是增量(liang)的(de),分塊/分片的(de),并會(hui)進行索(suo)(suo)(suo)(suo)引(yin)合并、優(you)化(hua)和刪除。生(sheng)成(cheng)的(de)索(suo)(suo)(suo)(suo)引(yin)數據(ju)通(tong)常包括:字典數據(ju)、倒排表、正排表、文(wen)檔(dang)屬性等。生(sheng)成(cheng)的(de)索(suo)(suo)(suo)(suo)引(yin)存儲于索(suo)(suo)(suo)(suo)引(yin)服務(wu)器。
4、索(suo)引服務器:存儲索(suo)引數(shu)據(ju)(ju),主要是倒(dao)排表,通常(chang)是分塊、分片存儲,并支持增量(liang)(liang)更新和(he)(he)刪除。數(shu)據(ju)(ju)內容量(liang)(liang)非常(chang)大時,還根據(ju)(ju)類別、主題、時間、網頁質量(liang)(liang)劃分數(shu)據(ju)(ju)分區和(he)(he)分布,更好地服務在(zai)線查詢(xun)。
5、檢索(suo):讀(du)取倒排(pai)表(biao)索(suo)引,響應(ying)前端查詢(xun)請求,返回(hui)相(xiang)關文檔列表(biao)數據。
6、排序(xu):對檢索器返回的文檔(dang)列表進行(xing)排序(xu),基于文檔(dang)和查(cha)詢的相關(guan)性、文檔(dang)的鏈接權重等屬性。
7、鏈(lian)接(jie)分析:收集各(ge)網(wang)(wang)頁的鏈(lian)接(jie)數(shu)據和錨文本(Anchor Text),以(yi)此計算(suan)各(ge)網(wang)(wang)頁鏈(lian)接(jie)評(ping)分,最終會作(zuo)為(wei)網(wang)(wang)頁屬性(xing)參與返回結果排(pai)序(xu)。
8、網(wang)(wang)頁(ye)(ye)去(qu)重(zhong):提取各網(wang)(wang)頁(ye)(ye)的(de)相關特征屬(shu)性,計算(suan)相似網(wang)(wang)頁(ye)(ye)組,提供(gong)離(li)線(xian)索引和(he)在線(xian)查(cha)詢的(de)去(qu)重(zhong)服務。
9、網(wang)(wang)(wang)頁(ye)反(fan)垃(la)(la)圾:收集各網(wang)(wang)(wang)頁(ye)和網(wang)(wang)(wang)站歷史(shi)信息,提取垃(la)(la)圾網(wang)(wang)(wang)頁(ye)特征,從而(er)對在線索(suo)引中(zhong)的網(wang)(wang)(wang)頁(ye)進(jin)行判定,去除垃(la)(la)圾網(wang)(wang)(wang)頁(ye)。
10、查詢(xun)分析:分析用戶查詢(xun),生成結(jie)構化查詢(xun)請求,指派到相(xiang)應的類別、主題數(shu)據服務器進行查詢(xun)。
11、頁(ye)(ye)面(mian)描(miao)述/摘要:為檢索和(he)排序完成的網頁(ye)(ye)列(lie)表(biao)提供相應的描(miao)述和(he)摘要。
12、前端:接受用戶請求,分(fen)發至相應(ying)服務器,返回查(cha)詢(xun)結果。