搜索引擎由哪些部分組成?
蜘蛛負責網頁信息的抓取。壹般來說,分詞器和索引器壹起使用。他們負責對抓取的網頁內容進行分詞和自動索引,並建立索引數據庫。查詢者根據用戶的查詢條件搜索索引數據庫,對搜索結果進行並、交等排序和聚合操作,然後提取網頁的簡單摘要信息,反饋給查詢用戶。Google搜索引擎從功能上也分為三個部分:網頁抓取、索引入庫和用戶查詢。網頁抓取主要負責抓取網頁,由URL服務器、爬蟲、內存、分析器、URL解析器組成,爬蟲是這部分的核心。索引入庫主要負責對網頁內容進行分析,對文檔進行索引,並存儲到數據庫中。它由索引器和分類器組成。這個模塊涉及到很多文檔和數據,關於桶的操作是這壹部分的核心。用戶查詢主要負責分析用戶輸入的檢索表達式,匹配相關文檔,並將檢索結果返回給用戶。它由查詢裝置和網頁評分裝置組成,網頁評分的計算是這壹部分的核心。舉例:SOPI搜索引擎系統的組成SOPI是壹個小型的搜索引擎系統,功能類似於百度和GOOGLE,適用於中小型網站和企業的信息搜索和展示服務。本網站的所有內容都是通過這個系統自動獲取的。系統性能參數如下:平臺:1U兼容服務器,雙核至強2.8G,1G內存索引庫大小:5G數據庫:SqlServer2005運行環境:微軟。NET Framework SDK v2.0平均內存使用量:600-900MCPU使用量:10%-80%每天新增文章和圖片數量:65438+百萬搜索時間:5G內容搜索。結果0.3-1秒SOPI由信息采集系統、信息分析系統、指標系統、管理系統和網站平臺五部分組成。結構如下:搜索引擎的主要工作流程是:首先從蜘蛛開始,蜘蛛程序每隔壹定時間(像google壹般是28天)自動啟動並讀取網頁的URL服務器上的URL列表,按照深度優先或廣度優先搜索的方式抓取每個URL指定的網站,為抓取的網頁分配壹個唯壹的文檔ID(DocId),並存儲在文檔數據庫中。通常,它在存儲到文檔數據庫之前被壓縮。並將當前頁面上的所有超鏈接存儲在URL服務器中。在爬取的同時,分詞器和索引器對爬取的網頁文檔進行處理,根據網頁中出現單詞的位置和頻率計算權重,然後將分詞結果存儲在索引數據庫中。在整個爬行和索引工作完成後,更新整個索引數據庫和文檔數據庫,以便用戶查詢最新的web信息。