一、什么是搜索引擎
搜索引擎是指(zhi)(zhi)根(gen)據一定(ding)的(de)策略、運用特定(ding)的(de)計算機程(cheng)序從互聯網上(shang)采集信(xin)息,在對(dui)信(xin)息進行(xing)組織和(he)處理(li)后,為(wei)(wei)用戶提供檢索(suo)(suo)(suo)服務,將檢索(suo)(suo)(suo)的(de)相關信(xin)息展示給用戶的(de)系統。搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)是工(gong)作(zuo)于互聯網上(shang)的(de)一門檢索(suo)(suo)(suo)技術,它指(zhi)(zhi)在提高(gao)人(ren)(ren)們獲取(qu)搜(sou)集信(xin)息的(de)速(su)度,為(wei)(wei)人(ren)(ren)們提供更好的(de)網絡使用環(huan)境。從功能(neng)和(he)原理(li)上(shang)搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)大(da)致被分為(wei)(wei)全(quan)文搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)、元搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)、垂(chui)直(zhi)搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)和(he)目錄搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)等四(si)大(da)類。
二、搜索引擎的工作原理
搜索(suo)引擎(qing)的(de)(de)工作原理是(shi)(shi)從(cong)互聯網上抓取網頁,建立索(suo)引數(shu)據(ju)庫,在索(suo)引數(shu)據(ju)庫中搜索(suo)排序。它的(de)(de)整個工作過程(cheng)大體分(fen)(fen)(fen)為信(xin)息(xi)(xi)采(cai)集、信(xin)息(xi)(xi)分(fen)(fen)(fen)析(xi)、信(xin)息(xi)(xi)查詢(xun)(xun)和(he)用(yong)(yong)(yong)戶(hu)接口四(si)部分(fen)(fen)(fen)。信(xin)息(xi)(xi)采(cai)集是(shi)(shi)網絡(luo)(luo)機器(qi)人(ren)掃(sao)描(miao)一(yi)定IP地址(zhi)范圍內(nei)的(de)(de)網站,通過鏈接遍(bian)歷Web空(kong)間,來進行采(cai)集網頁資料,為保(bao)證(zheng)采(cai)集的(de)(de)資料最新,網絡(luo)(luo)機器(qi)人(ren)還(huan)會回訪已抓取過的(de)(de)網頁;信(xin)息(xi)(xi)分(fen)(fen)(fen)析(xi)是(shi)(shi)通過分(fen)(fen)(fen)析(xi)程(cheng)序,從(cong)采(cai)集的(de)(de)信(xin)息(xi)(xi)中提取索(suo)引項,用(yong)(yong)(yong)索(suo)引項表(biao)示(shi)文(wen)檔并生(sheng)成文(wen)檔庫的(de)(de)索(suo)引表(biao),從(cong)而建立索(suo)引數(shu)據(ju)庫;信(xin)息(xi)(xi)查詢(xun)(xun)是(shi)(shi)指用(yong)(yong)(yong)戶(hu)以關(guan)鍵詞查找信(xin)息(xi)(xi)時,搜索(suo)引擎(qing)會根據(ju)用(yong)(yong)(yong)戶(hu)的(de)(de)查詢(xun)(xun)條件在索(suo)引庫中快速檢索(suo)文(wen)檔,然后(hou)對檢出(chu)的(de)(de)文(wen)檔與(yu)查詢(xun)(xun)條件的(de)(de)相(xiang)關(guan)度(du)進行評價(jia),最后(hou)根據(ju)相(xiang)關(guan)度(du)對檢索(suo)結果進行排序并輸出(chu)。
三、搜索引擎的工作流程
1、爬行和抓取
搜(sou)索(suo)引(yin)擎(qing)派出(chu)(chu)一個(ge)能夠在網(wang)(wang)上發(fa)現(xian)(xian)新網(wang)(wang)頁(ye)并抓文(wen)(wen)件(jian)的(de)(de)程序,這(zhe)(zhe)(zhe)個(ge)程序通常(chang)稱之為蜘(zhi)蛛(Spider)。搜(sou)索(suo)引(yin)擎(qing)從已知的(de)(de)數據庫出(chu)(chu)發(fa),就(jiu)像正常(chang)用戶(hu)的(de)(de)瀏(liu)覽器一樣(yang)訪問這(zhe)(zhe)(zhe)些網(wang)(wang)頁(ye)并抓取(qu)文(wen)(wen)件(jian)。搜(sou)索(suo)引(yin)擎(qing)通過這(zhe)(zhe)(zhe)些爬蟲去爬互聯網(wang)(wang)上的(de)(de)外鏈(lian),從這(zhe)(zhe)(zhe)個(ge)網(wang)(wang)站爬到另(ling)一個(ge)網(wang)(wang)站,去跟蹤網(wang)(wang)頁(ye)中的(de)(de)鏈(lian)接,訪問更(geng)多(duo)的(de)(de)網(wang)(wang)頁(ye),這(zhe)(zhe)(zhe)個(ge)過程就(jiu)叫爬行(xing)。這(zhe)(zhe)(zhe)些新的(de)(de)網(wang)(wang)址會被存(cun)入數據庫等待搜(sou)索(suo)。所(suo)以(yi)跟蹤網(wang)(wang)頁(ye)鏈(lian)接是搜(sou)索(suo)引(yin)擎(qing)蜘(zhi)蛛(Spider)發(fa)現(xian)(xian)新網(wang)(wang)址的(de)(de)最基(ji)本(ben)(ben)的(de)(de)方法,所(suo)以(yi)反向鏈(lian)接成為搜(sou)索(suo)引(yin)擎(qing)優化的(de)(de)最基(ji)本(ben)(ben)因(yin)素之一。搜(sou)索(suo)引(yin)擎(qing)抓取(qu)的(de)(de)頁(ye)面文(wen)(wen)件(jian)與用戶(hu)瀏(liu)覽器得(de)到的(de)(de)完全一樣(yang),抓取(qu)的(de)(de)文(wen)(wen)件(jian)存(cun)入數據庫。
2、建立索引
蜘蛛抓取的頁面(mian)文件分解、分析,并以巨(ju)大表(biao)格的形式存入數據庫,這個過(guo)程(cheng)即是索引(index)。在索引數據庫中,網頁文字(zi)內容,關(guan)鍵(jian)詞出現的位置、字(zi)體(ti)、顏色、加粗、斜(xie)體(ti)等相(xiang)關(guan)信息都有相(xiang)應記錄。
3、搜索詞處理
用戶在搜索(suo)引擎界面(mian)輸入關(guan)鍵詞,單(dan)擊“搜索(suo)”按鈕(niu)后,搜索(suo)引擎程序即對搜索(suo)詞進行處(chu)(chu)理(li),如中文特有的分詞處(chu)(chu)理(li),去除停止詞,判斷是(shi)否需要啟動(dong)整合搜索(suo),判斷是(shi)否有拼(pin)寫錯(cuo)誤或錯(cuo)別(bie)字等情況。搜索(suo)詞的處(chu)(chu)理(li)必(bi)須十分快速。
4、排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法(fa)與人相比,這(zhe)就(jiu)是為什么網站要(yao)進行搜索(suo)引(yin)(yin)擎(qing)優化(SEO)。沒有(you)SEO的(de)幫助,搜索(suo)引(yin)(yin)擎(qing)常(chang)常(chang)并不能正確的(de)返回最(zui)相關、最(zui)權威、最(zui)有(you)用的(de)信(xin)息。