什么是搜索引擎搜索引擎的工作原理

本文章由注冊用戶天空之城上傳提供 2022-12-24 ★ 評論發布糾錯/刪除 0

摘要：在互聯網時代，我們應該都用過搜索引擎查詢過一些信息。說到搜索引擎，我們腦海里想到的無非就是百度、谷歌、搜狗等等。搜索引擎這個名字也許我們并不陌生，但至于什么是搜索引擎也許大家并不怎么了解。下面小編就來介紹搜索引擎的含義及搜索引擎的工作原理。

一、什么是搜索引擎

搜索引擎是指(zhi)(zhi)根(gen)據一定(ding)的(de)策略、運用特定(ding)的(de)計算機程(cheng)序從互聯網上(shang)采集信(xin)息，在對(dui)信(xin)息進行(xing)組織和(he)處理(li)后，為(wei)(wei)用戶提供檢索(suo)(suo)(suo)服務，將檢索(suo)(suo)(suo)的(de)相關信(xin)息展示給用戶的(de)系統。搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)是工(gong)作(zuo)于互聯網上(shang)的(de)一門檢索(suo)(suo)(suo)技術，它指(zhi)(zhi)在提高(gao)人(ren)(ren)們獲取(qu)搜(sou)集信(xin)息的(de)速(su)度，為(wei)(wei)人(ren)(ren)們提供更好的(de)網絡使用環(huan)境。從功能(neng)和(he)原理(li)上(shang)搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)大(da)致被分為(wei)(wei)全(quan)文搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)、元搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)、垂(chui)直(zhi)搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)和(he)目錄搜(sou)索(suo)(suo)(suo)引(yin)(yin)(yin)擎(qing)(qing)等四(si)大(da)類。

二、搜索引擎的工作原理

搜索(suo)引擎(qing)的(de)(de)工作原理是(shi)(shi)從(cong)互聯網上抓取網頁，建立索(suo)引數(shu)據(ju)庫，在索(suo)引數(shu)據(ju)庫中搜索(suo)排序。它的(de)(de)整個工作過程(cheng)大體分(fen)(fen)(fen)為信(xin)息(xi)(xi)采(cai)集、信(xin)息(xi)(xi)分(fen)(fen)(fen)析(xi)、信(xin)息(xi)(xi)查詢(xun)(xun)和(he)用(yong)(yong)(yong)戶(hu)接口四(si)部分(fen)(fen)(fen)。信(xin)息(xi)(xi)采(cai)集是(shi)(shi)網絡(luo)(luo)機器(qi)人(ren)掃(sao)描(miao)一(yi)定IP地址(zhi)范圍內(nei)的(de)(de)網站，通過鏈接遍(bian)歷Web空(kong)間，來進行采(cai)集網頁資料，為保(bao)證(zheng)采(cai)集的(de)(de)資料最新，網絡(luo)(luo)機器(qi)人(ren)還(huan)會回訪已抓取過的(de)(de)網頁；信(xin)息(xi)(xi)分(fen)(fen)(fen)析(xi)是(shi)(shi)通過分(fen)(fen)(fen)析(xi)程(cheng)序，從(cong)采(cai)集的(de)(de)信(xin)息(xi)(xi)中提取索(suo)引項，用(yong)(yong)(yong)索(suo)引項表(biao)示(shi)文(wen)檔并生(sheng)成文(wen)檔庫的(de)(de)索(suo)引表(biao)，從(cong)而建立索(suo)引數(shu)據(ju)庫；信(xin)息(xi)(xi)查詢(xun)(xun)是(shi)(shi)指用(yong)(yong)(yong)戶(hu)以關(guan)鍵詞查找信(xin)息(xi)(xi)時，搜索(suo)引擎(qing)會根據(ju)用(yong)(yong)(yong)戶(hu)的(de)(de)查詢(xun)(xun)條件在索(suo)引庫中快速檢索(suo)文(wen)檔，然后(hou)對檢出(chu)的(de)(de)文(wen)檔與(yu)查詢(xun)(xun)條件的(de)(de)相(xiang)關(guan)度(du)進行評價(jia)，最后(hou)根據(ju)相(xiang)關(guan)度(du)對檢索(suo)結果進行排序并輸出(chu)。

三、搜索引擎的工作流程

1、爬行和抓取

搜(sou)索(suo)引(yin)擎(qing)派出(chu)(chu)一個(ge)能夠在網(wang)(wang)上發(fa)現(xian)(xian)新網(wang)(wang)頁(ye)并抓文(wen)(wen)件(jian)的(de)(de)程序，這(zhe)(zhe)(zhe)個(ge)程序通常(chang)稱之為蜘(zhi)蛛（Spider）。搜(sou)索(suo)引(yin)擎(qing)從已知的(de)(de)數據庫出(chu)(chu)發(fa)，就(jiu)像正常(chang)用戶(hu)的(de)(de)瀏(liu)覽器一樣(yang)訪問這(zhe)(zhe)(zhe)些網(wang)(wang)頁(ye)并抓取(qu)文(wen)(wen)件(jian)。搜(sou)索(suo)引(yin)擎(qing)通過這(zhe)(zhe)(zhe)些爬蟲去爬互聯網(wang)(wang)上的(de)(de)外鏈(lian)，從這(zhe)(zhe)(zhe)個(ge)網(wang)(wang)站爬到另(ling)一個(ge)網(wang)(wang)站，去跟蹤網(wang)(wang)頁(ye)中的(de)(de)鏈(lian)接，訪問更(geng)多(duo)的(de)(de)網(wang)(wang)頁(ye)，這(zhe)(zhe)(zhe)個(ge)過程就(jiu)叫爬行(xing)。這(zhe)(zhe)(zhe)些新的(de)(de)網(wang)(wang)址會被存(cun)入數據庫等待搜(sou)索(suo)。所(suo)以(yi)跟蹤網(wang)(wang)頁(ye)鏈(lian)接是搜(sou)索(suo)引(yin)擎(qing)蜘(zhi)蛛（Spider）發(fa)現(xian)(xian)新網(wang)(wang)址的(de)(de)最基(ji)本(ben)(ben)的(de)(de)方法，所(suo)以(yi)反向鏈(lian)接成為搜(sou)索(suo)引(yin)擎(qing)優化的(de)(de)最基(ji)本(ben)(ben)因(yin)素之一。搜(sou)索(suo)引(yin)擎(qing)抓取(qu)的(de)(de)頁(ye)面文(wen)(wen)件(jian)與用戶(hu)瀏(liu)覽器得(de)到的(de)(de)完全一樣(yang)，抓取(qu)的(de)(de)文(wen)(wen)件(jian)存(cun)入數據庫。

2、建立索引

蜘蛛抓取的頁面(mian)文件分解、分析，并以巨(ju)大表(biao)格的形式存入數據庫，這個過(guo)程(cheng)即是索引（index)。在索引數據庫中，網頁文字(zi)內容，關(guan)鍵(jian)詞出現的位置、字(zi)體(ti)、顏色、加粗、斜(xie)體(ti)等相(xiang)關(guan)信息都有相(xiang)應記錄。

3、搜索詞處理

用戶在搜索(suo)引擎界面(mian)輸入關(guan)鍵詞，單(dan)擊“搜索(suo)”按鈕(niu)后，搜索(suo)引擎程序即對搜索(suo)詞進行處(chu)(chu)理(li)，如中文特有的分詞處(chu)(chu)理(li)，去除停止詞，判斷是(shi)否需要啟動(dong)整合搜索(suo)，判斷是(shi)否有拼(pin)寫錯(cuo)誤或錯(cuo)別(bie)字等情況。搜索(suo)詞的處(chu)(chu)理(li)必(bi)須十分快速。

4、排序

對搜索詞處理后，搜索引擎程序便開始工作，從索引數據庫中找出所有包含搜索詞的網頁，并且根據排名算法計算出哪些網頁應該排在前面，然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法(fa)與人相比，這(zhe)就(jiu)是為什么網站要(yao)進行搜索(suo)引(yin)(yin)擎(qing)優化（SEO）。沒有(you)SEO的(de)幫助，搜索(suo)引(yin)(yin)擎(qing)常(chang)常(chang)并不能正確的(de)返回最(zui)相關、最(zui)權威、最(zui)有(you)用的(de)信(xin)息。

標簽： 搜索引擎網絡互聯網網絡/軟件

網站提醒和聲明

本(ben)站為注冊用戶提供信息(xi)存儲空間(jian)服務，非(fei)“MAIGOO編輯上(shang)傳提供”的文(wen)章/文(wen)字均是注冊用戶自主發布上(shang)傳，不代表本(ben)站觀點，版權歸(gui)原作者所(suo)有，如有侵權、虛假(jia)信息(xi)、錯(cuo)誤信息(xi)或任何問題，請及時(shi)聯系(xi)我們(men)，我們(men)將在(zai)第(di)一時(shi)間(jian)刪除或更正(zheng)。申請刪除>> 糾錯>> 投訴侵權>> 網頁上相關信(xin)息的知識(shi)產權(quan)歸(gui)網站方所有(包括但不(bu)限(xian)于文字、圖片、圖表、著(zhu)作權(quan)、商標權(quan)、為用(yong)戶提供的商業信(xin)息等(deng))，非(fei)經許可不(bu)得抄襲或使用(yong)。

提(ti)交說(shuo)明：快速提交發布>> 查看提交幫助>> 注冊登錄>>