1、爬蟲:從(cong)互聯網爬取(qu)原始網頁數據,存儲于文檔知識庫服務器。
2、文(wen)檔知識庫服務器:存(cun)儲原始網(wang)頁數據(ju)(ju)(ju),通常是分布式Key-Value數據(ju)(ju)(ju)庫,能(neng)根據(ju)(ju)(ju)URL/UID快速獲取(qu)網(wang)頁內容。
3、索(suo)引(yin)(yin):讀取原始網(wang)頁數據,解析網(wang)頁,抽取有效字(zi)段,生(sheng)成(cheng)索(suo)引(yin)(yin)數據。索(suo)引(yin)(yin)數據的(de)生(sheng)成(cheng)方式通常是增量的(de),分(fen)塊(kuai)/分(fen)片的(de),并會(hui)進行索(suo)引(yin)(yin)合(he)并、優(you)化和刪(shan)除。生(sheng)成(cheng)的(de)索(suo)引(yin)(yin)數據通常包括(kuo):字(zi)典(dian)數據、倒排(pai)(pai)表、正排(pai)(pai)表、文檔屬性等。生(sheng)成(cheng)的(de)索(suo)引(yin)(yin)存(cun)儲于索(suo)引(yin)(yin)服務器。
4、索(suo)引(yin)服務器:存儲索(suo)引(yin)數據(ju)(ju),主要是倒(dao)排表,通常是分塊、分片存儲,并(bing)支持增量(liang)(liang)更新和(he)刪除(chu)。數據(ju)(ju)內(nei)容量(liang)(liang)非常大時,還(huan)根(gen)據(ju)(ju)類別、主題、時間、網頁質量(liang)(liang)劃(hua)分數據(ju)(ju)分區和(he)分布,更好地(di)服務在線查詢。
5、檢索(suo):讀取倒排(pai)表索(suo)引,響應前端查詢請求(qiu),返回(hui)相關文檔(dang)列表數據。
6、排序:對檢(jian)索器返回的文(wen)檔(dang)列表進(jin)行(xing)排序,基于文(wen)檔(dang)和查詢的相關(guan)性、文(wen)檔(dang)的鏈接(jie)權重等屬性。
7、鏈接分析:收集各網頁的鏈接數據和錨(mao)文本(ben)(Anchor Text),以此計算各網頁鏈接評分,最終會(hui)作為網頁屬(shu)性參(can)與返(fan)回結果排(pai)序。
8、網頁(ye)去(qu)重:提取各網頁(ye)的相關特(te)征屬性,計(ji)算相似(si)網頁(ye)組,提供(gong)離線(xian)索引和在(zai)線(xian)查詢的去(qu)重服務。
9、網(wang)頁(ye)(ye)(ye)反(fan)垃圾:收集各網(wang)頁(ye)(ye)(ye)和網(wang)站歷史信(xin)息,提取(qu)垃圾網(wang)頁(ye)(ye)(ye)特征,從而對(dui)在線索引中的網(wang)頁(ye)(ye)(ye)進行判(pan)定,去除垃圾網(wang)頁(ye)(ye)(ye)。
10、查詢分析(xi)(xi):分析(xi)(xi)用戶查詢,生成結構(gou)化查詢請求,指派(pai)到(dao)相應的類別、主題數據服務器進行查詢。
11、頁面(mian)描(miao)述/摘要:為檢索(suo)和(he)排序完成的網(wang)頁列表提供相(xiang)應的描(miao)述和(he)摘要。
12、前端(duan):接(jie)受用戶請求,分發至(zhi)相應服務器(qi),返(fan)回查(cha)詢結(jie)果。