搜索引擎由哪些部分組成？

蜘蛛負責網頁信息的抓取。壹般來說，分詞器和索引器壹起使用。他們負責對抓取的網頁內容進行分詞和自動索引，並建立索引數據庫。查詢者根據用戶的查詢條件搜索索引數據庫，對搜索結果進行並、交等排序和聚合操作，然後提取網頁的簡單摘要信息，反饋給查詢用戶。Google搜索引擎從功能上也分為三個部分:網頁抓取、索引入庫和用戶查詢。網頁抓取主要負責抓取網頁，由URL服務器、爬蟲、內存、分析器、URL解析器組成，爬蟲是這部分的核心。索引入庫主要負責對網頁內容進行分析，對文檔進行索引，並存儲到數據庫中。它由索引器和分類器組成。這個模塊涉及到很多文檔和數據，關於桶的操作是這壹部分的核心。用戶查詢主要負責分析用戶輸入的檢索表達式，匹配相關文檔，並將檢索結果返回給用戶。它由查詢裝置和網頁評分裝置組成，網頁評分的計算是這壹部分的核心。舉例:SOPI搜索引擎系統的組成SOPI是壹個小型的搜索引擎系統，功能類似於百度和GOOGLE，適用於中小型網站和企業的信息搜索和展示服務。本網站的所有內容都是通過這個系統自動獲取的。系統性能參數如下:平臺:1U兼容服務器，雙核至強2.8G，1G內存索引庫大小:5G數據庫:SqlServer2005運行環境:微軟。NET Framework SDK v2.0平均內存使用量:600-900MCPU使用量:10%-80%每天新增文章和圖片數量:65438+百萬搜索時間:5G內容搜索。結果0.3-1秒SOPI由信息采集系統、信息分析系統、指標系統、管理系統和網站平臺五部分組成。結構如下:搜索引擎的主要工作流程是:首先從蜘蛛開始，蜘蛛程序每隔壹定時間(像google壹般是28天)自動啟動並讀取網頁的URL服務器上的URL列表，按照深度優先或廣度優先搜索的方式抓取每個URL指定的網站，為抓取的網頁分配壹個唯壹的文檔ID(DocId)，並存儲在文檔數據庫中。通常，它在存儲到文檔數據庫之前被壓縮。並將當前頁面上的所有超鏈接存儲在URL服務器中。在爬取的同時，分詞器和索引器對爬取的網頁文檔進行處理，根據網頁中出現單詞的位置和頻率計算權重，然後將分詞結果存儲在索引數據庫中。在整個爬行和索引工作完成後，更新整個索引數據庫和文檔數據庫，以便用戶查詢最新的web信息。

上篇: 奶奶的故事電子書txt完整下載

下篇: 恒壽堂中醫經絡養生館怎麽樣

搜索引擎由哪些部分組成？

相关文章