正文

搜索引擎器的主要功能（搜索引擎器的主要功能是什么）

發(fā)布時間：2023-04-21 21:04:30 稿源：創(chuàng)意嶺閱讀： 109

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關于搜索引擎器的主要功能的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關鍵詞，就能返回你想要的內(nèi)容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務客戶遍布全球各地，如需了解SEO相關業(yè)務請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、請列出國內(nèi)外十大搜索引擎，并說明它們的優(yōu)缺點！
2、搜索引擎有什么作用?不用可以嗎?
3、搜索引擎如何實現(xiàn)搜索的啊
4、搜索引擎的工作內(nèi)容有哪些?

搜索引擎器的主要功能（搜索引擎器的主要功能是什么）

一、請列出國內(nèi)外十大搜索引擎，并說明它們的優(yōu)缺點！

全球十大搜索引擎

1. Google —— 全球最大的（機器）搜索引擎

主要搜索結果將列入AOL, Netscape, iwon和Go.

Google在對網(wǎng)站進行排名時不僅衡量關鍵詞與頁面的匹配度，也考慮外部鏈接。一個網(wǎng)站擁有越多的外部鏈接，說明它越受歡迎。

2. Yahoo

—— 世界最早的分類目錄，也是最大的門戶網(wǎng)站。

它的搜索結果最初來自于Google，后采用Inktomi（已被雅虎收購）提供的結果。Yahoo現(xiàn)在開發(fā)了自己的搜索技術，稱為Yahoo

Search Technology (YST)。

3. MSN

—— 錄屬于微軟公司。

MSN提供的Hotmail和MSN

Message極受歡迎。但MSN沒有自己的搜索引擎，一直采用其他搜索引擎的結果。比如，MSN主要搜索結果來自于Inktomi，競價廣告原由LookSmart提供，但于2004年初改由Overture提供。

4. AOL —— 美國在線，是美國也是世界上最早的門戶網(wǎng)站之一。

幾年前已與時代公司合并，成為美國在線-時代華納公司。AOL目前的主營業(yè)務是ISP。其搜索結果全部來自于Google 提供。也就是說，有良好的Google排名也有良好的AOL排名。

5. Lycos —— 西班牙公司，全稱為Terry Lycos，是全世界最早的搜索引擎之一。

目前，Lycos已放棄自己開發(fā)的搜索技術，而主要搜索結果來自于Alltheweb。另外，其競價排名結果來自于Google的右側廣告。

6. Ask Jeeves —— 規(guī)模不大，但很有特色的搜索搜索。

Ask是DirectHit的母公司，于2001年收購Teoma搜索引擎，并全部采用其搜索結果。奇怪的是，Ask的競價排名結果卻仍然來自于Google的右側廣告。

7. Overture —— 最早的付費搜索引擎（競價排名搜索引擎）。

搜索結果被Yahoo,

MSN等采用。Overture收購了Google的對手Inktomi后被Yahoo收購，是Google AdWords目前最大的競爭對手。

如何在Overture做競價排名廣告

8. Netscape

—— 即網(wǎng)景公司，Netscape最初被廣大用戶認知是因為它的Netscape瀏覽器。

但網(wǎng)景公司研發(fā)的瀏覽器現(xiàn)在幾乎完全被微軟的Internet

Explorer瀏覽器逐出市場。只有少數(shù)的網(wǎng)民（不使用微軟操作系統(tǒng)的）使用Netscape瀏覽器。Netscape的搜索結果

全部來自于Google. 另外，全世界最大的開放式目錄DMOZ錄屬于網(wǎng)景公司。

9. AltaVista —— 全世界最古老的搜索引擎之一，中國網(wǎng)民很難訪問。

該搜索引擎已于2003年被Yahoo收購。同時被Yahoo收購的還有AllTheWeb。

微迪認為，AltaVista不久可能銷聲匿跡，因為Yahoo并沒有采用AltaVista、Alltheweb或者Inktomi的搜索結果，而是重新開發(fā)全新的搜索技術。

10. Inktomi

—— 不向終端用戶開放，只對搜索引擎提供搜索結果。

于2003年被Overture收購（Overture后又被Yahoo收購）。在2004年Yahoo開發(fā)自己全新的搜索引擎技術之前，Inktomi還是全球第二大搜索引擎，其搜索結果被Hotbot,

MSN等著名的網(wǎng)站采用。

搜索引擎器的主要功能（搜索引擎器的主要功能是什么）

拓展資料：

搜索引擎（Search Engine）是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息，在對信息進行組織和處理后，為用戶提供檢索服務，將用戶檢索相關的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。

一個搜索引擎由搜索器、索引器、檢索器和用戶接口四個部分組成。搜索器的功能是在互聯(lián)網(wǎng) 中漫游，發(fā)現(xiàn)和搜集信息。索引器的功能是理解搜索器所搜索的信息，從中抽取出索引項，用于表示文檔以及生成文檔庫的索引表。檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔，進行文檔與查詢的相關度評價，對將要輸出的結果進行排序，并實現(xiàn)某種用戶相關性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。

參考資料：百度百科_搜索引擎

二、搜索引擎有什么作用?不用可以嗎?

搜索引擎是網(wǎng)站建設中針對“用戶使用網(wǎng)站的便利性”所提供的必要功能，同時也是研究網(wǎng)站用戶行為的一個有效工具，高效的站內(nèi)檢索可以讓用戶快速準確地找到目標信息，從而更有效地促進產(chǎn)品/服務的銷售，而且通過對網(wǎng)站訪問者搜索行為的深度分析，對于進一步制定更為有效的網(wǎng)絡營銷策略具有重要價值。

主要看你想要做什么了，如果你心里知道某個網(wǎng)站，可以直接在地址欄輸入網(wǎng)址打開進入，也可以通過收藏夾書簽快捷進入?；蛘咄ㄟ^網(wǎng)絡收藏夾網(wǎng)站，如百度搜藏點擊進入，以及網(wǎng)址導航站、個性網(wǎng)址站如13580進入，甚至寫成文章發(fā)表在博客、論壇中再點擊進入都可以。如果你不看網(wǎng)站，可以通過軟件玩游戲、聽音樂、看書等等。

三、搜索引擎如何實現(xiàn)搜索的啊

隨著互聯(lián)網(wǎng)的迅猛發(fā)展、WEB信息的增加，用戶要在信息海洋里查找自己所需的信息，就象大海撈針一樣，搜索引擎技術恰好解決了這一難題（它可以為用戶提供信息檢索服務）。搜索引擎是指互聯(lián)網(wǎng)上專門提供檢索服務的一類網(wǎng)站，這些站點的服務器通過網(wǎng)絡搜索軟件(例如網(wǎng)絡搜索機器人)或網(wǎng)絡登錄等方式，將Intemet上大量網(wǎng)站的頁面信息收集到本地，經(jīng)過加工處理建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫，從而對用戶提出的各種檢索作出響應，提供用戶所需的信息或相關指針。用戶的檢索途徑主要包括自由詞全文檢索、關鍵詞檢索、分類檢索及其他特殊信息的檢索(如企業(yè)、人名、電話黃頁等)。下面以網(wǎng)絡搜索機器人為例來說明搜索引擎技術。

1．網(wǎng)絡機器人技術

網(wǎng)絡機器人(Robot)又被稱作Spider、Worm或Random，核心目的是為獲取Intemet上的信息。一般定義為“一個在網(wǎng)絡上檢索文件且自動跟蹤該文件的超文本結構并循環(huán)檢索被參照的所有文件的軟件”。機器人利用主頁中的超文本鏈接遍歷WWW，通過U趾引用從一個HT2LIL文檔爬行到另一個HTML文檔。網(wǎng)上機器人收集到的信息可有多種用途，如建立索引、HIML文件合法性的驗證、uRL鏈接點驗證與確認、監(jiān)控與獲取更新信息、站點鏡像等。

機器人安在網(wǎng)上爬行，因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本，指向其他文檔的URL是隱藏在文檔中，需要從中分析提取URL，機器人一般都用于生成索引數(shù)據(jù)庫。所有WWW的搜索程序都有如下的工作步驟：

(1)機器人從起始URL列表中取出URL并從網(wǎng)上讀取其指向的內(nèi)容；

(2)從每一個文檔中提取某些信息(如關鍵字)并放入索引數(shù)據(jù)庫中；

(3)從文檔中提取指向其他文檔的URL，并加入到URL列表中；

(4)重復上述3個步驟，直到再沒有新的URL出現(xiàn)或超出了某些限制(時間或磁盤空間)；

(5)給索引數(shù)據(jù)庫加上檢索接口，向網(wǎng)上用戶發(fā)布或提供給用戶檢索。

搜索算法一般有深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。機器人以URL列表存取的方式?jīng)Q定搜索策略：先進先出，則形成廣度優(yōu)先搜索，當起始列表包含有大量的WWW服務器地址時，廣度優(yōu)先搜索將產(chǎn)生一個很好的初始結果，但很難深入到服務器中去；先進后出，則形成深度優(yōu)先搜索，這樣能產(chǎn)生較好的文檔分布，更容易發(fā)現(xiàn)文檔的結構，即找到最大數(shù)目的交叉引用。也可以采用遍歷搜索的方法，就是直接將32位的IP地址變化，逐個搜索整個Intemet。

搜索引擎是一個技術含量很高的網(wǎng)絡應用系統(tǒng)。它包括網(wǎng)絡技術、數(shù)據(jù)庫技術動標引技術、檢索技術、自動分類技術，機器學習等人工智能技術。

2．索引技術

索引技術是搜索引擎的核心技術之一。搜索引擎要對所收集到的信息進行整理、分類、索引以產(chǎn)生索引庫，而中文搜索引擎的核心是分詞技術。分詞技術是利用一定的規(guī)則和詞庫，切分出一個句子中的詞，為自動索引做好準備。目前的索引多采用Non—clustered方法，該技術和語言文字的學問有很大的關系，具體有如下幾點：

(1)存儲語法庫，和詞匯庫配合分出句子中的詞匯；

(2)存儲詞匯庫，要同時存儲詞匯的使用頻率和常見搭配方式；

(3)詞匯寬，應可劃分為不同的專業(yè)庫，以便于處理專業(yè)文獻；

(4)對無法分詞的句子，把每個字當作詞來處理。

索引器生成從關鍵詞到URL的關系索引表。索引表一般使用某種形式的倒排表(1nversionUst)，即由索引項查找相應的URL。索引表也要記錄索引項在文檔中出現(xiàn)的位置，以便檢索器計算索引項之間的相鄰關系或接近關系，并以特定的數(shù)據(jù)結構存儲在硬盤上。

不同的搜索引擎系統(tǒng)可能采用不盡相同的標引方法。例如Webcrawler利用全文檢索技術，對網(wǎng)頁中每一個單詞進行索引；Lycos只對頁名、標題以及最重要的100個注釋詞等選擇性詞語進行索引；Infoseek則提供概念檢索和詞組檢索，支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。

3. 檢索器與結果處理技術

檢索器的主要功能是根據(jù)用戶輸入的關鍵詞在索引器形成的倒排表中進行檢索，同時完成頁面與檢索之間的相關度評價，對將要輸出的結果進行排序，并實現(xiàn)某種用戶相關性反饋機制。

通過搜索引擎獲得的檢索結果往往成百上千，為了得到有用的信息，常用的方法是按網(wǎng)頁的重要性或相關性給網(wǎng)頁評級，進行相關性排序。這里的相關度是指搜索關鍵字在文檔中出現(xiàn)的額度。當額度越高時，則認為該文檔的相關程度越高。能見度也是常用的衡量標準之一。一個網(wǎng)頁的能見度是指該網(wǎng)頁入口超級鏈接的數(shù)目。能見度方法是基于這樣的觀點：一個網(wǎng)頁被其他網(wǎng)頁引用得越多，則該網(wǎng)頁就越有價值。特別地，一個網(wǎng)頁被越重要的網(wǎng)頁所引用，則該網(wǎng)頁的重要程度也就越高。結果處理技術可歸納為：

(1)按頻次排定次序通常，如果一個頁面包含了越多的關鍵詞，其搜索目標的相關性應該越好，這是非常合平常理的解決方案。

(2)按頁面被訪問度排序在這種方法中，搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應該包含比較多的信息，或者有其他吸引入的長處。這種解決方案適合一般的搜索用戶，而因為大部分的搜索引擎都不是專業(yè)性用戶，所以這種方案也比較適合一般搜索引擎使用。

(3)二次檢索進一步凈化(比flne)結果，按照一定的條件對搜索結果進行優(yōu)化，可以再選擇類別、相關詞進行二次搜索等。

由于目前的搜索引擎還不具備智能，除非知道要查找的文檔的標題，否則排列第一的結果未必是“最好”的結果。所以有些文檔盡管相關程度高，但并不一定是用戶最需要的文檔。

搜索引擎技術的行業(yè)應用：

搜索引擎的行業(yè)應用一般指類似于千瓦通信提供的多種搜索引擎行業(yè)與產(chǎn)品應用模式，大體上分為如下幾種形式：

1、政府機關行業(yè)應用

n 實時跟蹤、采集與業(yè)務工作相關的信息來源。

n 全面滿足內(nèi)部工作人員對互聯(lián)網(wǎng)信息的全局觀測需求。

n 及時解決政務外網(wǎng)、政務內(nèi)網(wǎng)的信息源問題，實現(xiàn)動態(tài)發(fā)布。

n 快速解決政府主網(wǎng)站對各地級子網(wǎng)站的信息獲取需求。

n 全面整合信息，實現(xiàn)政府內(nèi)部跨地區(qū)、跨部門的信息資源共享與有效溝通。

n 節(jié)約信息采集的人力、物力、時間，提高辦公效率。

2、企業(yè)行業(yè)應用

n 實時準確地監(jiān)控、追蹤競爭對手動態(tài)，是企業(yè)獲取競爭情報的利器。

n 及時獲取競爭對手的公開信息以便研究同行業(yè)的發(fā)展與市場需求。

n 為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。

n 大幅度地提高企業(yè)獲取、利用情報的效率，節(jié)省情報信息收集、存儲、挖掘的相關費用，是提高企業(yè)核心競爭力的關鍵。

n 提高企業(yè)整體分析研究能力、市場快速反應能力，建立起以知識管理為核心的競爭情報數(shù)據(jù)倉庫，是提高企業(yè)核心競爭力的神經(jīng)中樞。

3、新聞媒體行業(yè)應用

n 快速準確地自動跟蹤、采集數(shù)千家網(wǎng)絡媒體信息，擴大新聞線索，提高采集速度。

n 支持每天對數(shù)萬條新聞進行有效抓取。監(jiān)控范圍的深度、廣度可以自行設定。

n 支持對所需內(nèi)容智能提取、審核。

n 實現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

4、行業(yè)網(wǎng)站應用

n 實時跟蹤、采集與網(wǎng)站相關的信息來源。

n 及時跟蹤行業(yè)的信息來源網(wǎng)站，自動，快速更新網(wǎng)站信息。動態(tài)更新信息。

n 實現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

n 針對商務網(wǎng)站提出商務管理模式，大大提高行業(yè)網(wǎng)站的商務應用需求。

n 針對資訊網(wǎng)站分類目錄生成，提出用戶生成網(wǎng)站分類結構。并可以實時增加與更新分類結構。不受級數(shù)限制。從而大大利高行業(yè)的應用性。

n 提供搜索引擎SEO優(yōu)化專業(yè)服務，快速提高行業(yè)網(wǎng)站的推廣。

n 提供與CCDC呼叫搜索引擎的廣告合作。建立行業(yè)網(wǎng)站聯(lián)盟，提高行業(yè)網(wǎng)站知名度。

5) 網(wǎng)絡信息監(jiān)察與監(jiān)控

n 網(wǎng)絡輿情系統(tǒng)。如“千瓦通信-網(wǎng)絡輿情雷達監(jiān)測系統(tǒng)”

n 網(wǎng)站信息與內(nèi)容監(jiān)察與監(jiān)控系統(tǒng)，如“千瓦通信-網(wǎng)站信息與內(nèi)容監(jiān)測與監(jiān)察系統(tǒng)（站內(nèi)神探）”

隨著因特網(wǎng)的迅猛發(fā)展、WEB信息的增加，用戶要在信息海洋里查找信息，就象大海撈

針一樣，搜索引擎技術恰好解決了這一難題（它可以為用戶提供信息檢索服務）。目前，

搜索引擎技術正成為計算機工業(yè)界和學術界爭相研究、開發(fā)的對象。

搜索引擎（Search Engine）是隨著WEB信息的迅速增加，從1995年開始逐漸發(fā)展起來

的技術。據(jù)發(fā)表在《科學》雜志1999年7月的文章《WEB信息的可訪問性》估計，全球目前

的網(wǎng)頁超過8億，有效數(shù)據(jù)超過9T，并且仍以每4個月翻一番的速度增長。用戶要在如此浩

瀚的信息海洋里尋找信息，必然會"大海撈針"無功而返。搜索引擎正是為了解決這個"迷航

"問題而出現(xiàn)的技術。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對信息進行理解

、提取、組織和處理，并為用戶提供檢索服務，從而起到信息導航的目的。搜索引擎提供

的導航服務已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡服務，搜索引擎站點也被美譽為"網(wǎng)絡門戶"

。搜索引擎技術因而成為計算機工業(yè)界和學術界爭相研究、開發(fā)的對象。本文旨在對搜索

引擎的關鍵技術進行簡單的介紹，以起到拋磚引玉的作用。

分類

按照信息搜集方法和服務提供方式的不同，搜索引擎系統(tǒng)可以分為三大類：

1．目錄式搜索引擎：以人工方式或半自動方式搜集信息，由編輯員查看信息之后，人

工形成信息摘要，并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站，提供目錄瀏

覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能，所以信息準確、導航質(zhì)量高

，缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是

：Yahoo、LookSmart、Open Directory、Go Guide等。

2．機器人搜索引擎：由一個稱為蜘蛛（Spider）的機器人程序以某種策略自動地在互

聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息，由索引器為搜集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸

入檢索索引庫，并將查詢結果返回給用戶。服務方式是面向網(wǎng)頁的全文檢索服務。該類搜

索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預，缺點是返回信息過多，有很多無關

信息，用戶必須從結果中進行篩選。這類搜索引擎的代表是：AltaVista、Northern Ligh

t、Excite、Infoseek、Inktomi、FAST、Lycos、Google；國內(nèi)代表為："天網(wǎng)"、悠游、O

penFind等。

3．元搜索引擎：這類搜索引擎沒有自己的數(shù)據(jù)，而是將用戶的查詢請求同時向多個搜

索引擎遞交，將返回的結果進行重復排除、重新排序等處理后，作為自己的結果返回給用

戶。服務方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點是返回結果的信息量更大、更

全，缺點是不能夠充分使用所使用搜索引擎的功能，用戶需要做更多的篩選。這類搜索引

擎的代表是WebCrawler、InfoMarket等。

性能指標

我們可以將WEB信息的搜索看作一個信息檢索問題，即在由WEB網(wǎng)頁組成的文檔庫中檢索

出與用戶查詢相關的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)-召回率（R

ecall）和精度（Pricision）衡量一個搜索引擎的性能。

召回率是檢索出的相關文檔數(shù)和文檔庫中所有的相關文檔數(shù)的比率，衡量的是檢索系

統(tǒng)（搜索引擎）的查全率；精度是檢索出的相關文檔數(shù)與檢索出的文檔總數(shù)的比率，衡量

的是檢索系統(tǒng)（搜索引擎）的查準率。對于一個檢索系統(tǒng)來講，召回率和精度不可能兩全

其美：召回率高時，精度低，精度高時，召回率低。所以常常用11種召回率下11種精度的

平均值（即11點平均精度）來衡量一個檢索系統(tǒng)的精度。對于搜索引擎系統(tǒng)來講，因為沒

有一個搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁，所以召回率很難計算。目前的搜索引擎系

統(tǒng)都非常關心精度。

影響一個搜索引擎系統(tǒng)的性能有很多因素，最主要的是信息檢索模型，包括文檔和查詢

的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相

關度反饋的機制。

主要技術

一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。

1.搜索器

搜索器的功能是在互聯(lián)網(wǎng)中漫游，發(fā)現(xiàn)和搜集信息。它常常是一個計算機程序，日夜

不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息，同時因為互聯(lián)網(wǎng)上的信

息更新很快，所以還要定期更新已經(jīng)搜集過的舊信息，以避免死連接和無效連接。目前有

兩種搜集信息的策略：

● 從一個起始URL集合開始，順著這些URL中的超鏈（Hyperlink），以寬度優(yōu)先、深

度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL，但常常

是一些非常流行、包含很多鏈接的站點（如Yahoo?。?。

● 將Web空間按照域名、IP地址或國家域名劃分，每個搜索器負責一個子空間的窮盡

搜索。搜索器搜集的信息類型多種多樣，包括HTML、XML、Newsgroup文章、FTP文件、

字處理文檔、多媒體信息。搜索器的實現(xiàn)常常用分布式、并行計算技術，以提高信息

發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達到每天幾百萬網(wǎng)頁。

2.索引器

索引器的功能是理解搜索器所搜索的信息，從中抽取出索引項，用于表示文檔以及生

成文檔庫的索引表。

索引項有客觀索引項和內(nèi)容索引項兩種：客觀項與文檔的語意內(nèi)容無關，如作者名、

URL、更新時間、編碼、長度、鏈接流行度（Link Popularity）等等；內(nèi)容索引項是用來

反映文檔內(nèi)容的，如關鍵詞及其權重、短語、單字等等。內(nèi)容索引項可以分為單索引項和

多索引項（或稱短語索引項）兩種。單索引項對于英文來講是英語單詞，比較容易提取，

因為單詞之間有天然的分隔符（空格）；對于中文等連續(xù)書寫的語言，必須進行詞語的切

分。在搜索引擎中，一般要給單索引項賦與一個權值，以表示該索引項對文檔的區(qū)分

度，同時用來計算查詢結果的相關度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短

語索引項的提取方法有統(tǒng)計法、概率法和語言學法。

索引表一般使用某種形式的倒排表（Inversion List），即由索引項查找相應的文檔

。索引表也可能要記錄索引項在文檔中出現(xiàn)的位置，以便檢索器計算索引項之間的相鄰或

接近關系（proximity）。

索引器可以使用集中式索引算法或分布式索引算法。當數(shù)據(jù)量很大時，必須實現(xiàn)即時

索引（Instant Indexing），否則不能夠跟上信息量急劇增加的速度。索引算法對索引器

的性能（如大規(guī)模峰值查詢時的響應速度）有很大的影響。一個搜索引擎的有效性在很大

程度上取決于索引的質(zhì)量。

3.檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔，進行文檔與

查詢的相關度評價，對將要輸出的結果進行排序，并實現(xiàn)某種用戶相關性反饋機制。

檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。

4.用戶接口

用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的

目的是方便用戶使用搜索引擎，高效率、多方式地從搜索引擎中得到有效、及時的信息。

用戶接口的設計和實現(xiàn)使用人機交互的理論和方法，以充分適應人類的思維習慣。

用戶輸入接口可以分為簡單接口和復雜接口兩種。

簡單接口只提供用戶輸入查詢串的文本框；復雜接口可以讓用戶對查詢進行限制，如

邏輯運算（與、或、非；+、-）、相近關系（相鄰、NEAR）、域名范圍（如.edu、.com）

、出現(xiàn)位置（如標題、內(nèi)容）、信息時間、長度等等。目前一些公司和機構正在考慮制定

查詢選項的標準。

未來動向

搜索引擎已成為一個新的研究、開發(fā)領域。因為它要用到信息檢索、人工智能、計算

機網(wǎng)絡、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領域的理論和

技術，所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶，有很好的經(jīng)濟價值，所

以引起了世界各國計算機科學界和信息產(chǎn)業(yè)界的高度關注，目前的研究、開發(fā)十分活躍，

并出現(xiàn)了很多值得注意的動向。

1.十分注意提高信息查詢結果的精度，提高檢索的有效性用戶在搜索引擎上進行

信息查詢時，并不十分關注返回結果的多少，而是看結果是否和自己的需求吻合。對于一

個查詢，傳統(tǒng)的搜索引擎動輒返回幾十萬、幾百萬篇文檔，用戶不得不在結果中篩選。解

決查詢結果過多的現(xiàn)象目前出現(xiàn)了幾種方法：一是通過各種方法獲得用戶沒有在查詢語句

中表達出來的真正用途，包括使用智能代理跟蹤用戶檢索行為，分析用戶模型；使用相關

度反饋機制，使用戶告訴搜索引擎哪些文檔和自己的需求相關（及其相關的程度），哪些

不相關，通過多次交互逐步求精。二是用正文分類（Text Categorization）技術將結果分

類，使用可視化技術顯示分類結構，用戶可以只瀏覽自己感興趣的類別。三是進行站點類

聚或內(nèi)容類聚，減少信息的總量。

2.基于智能代理的信息過濾和個性化服務

信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機制。它使用自動獲得的領域模型（如We

b知識、信息處理、與用戶興趣相關的信息資源、領域組織結構）、用戶模型（如用戶背景

、興趣、行為、風格）知識進行信息搜集、索引、過濾（包括興趣過濾和不良信息過濾）

，并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學習、適

應信息和用戶興趣動態(tài)變化的能力，從而提供個性化的服務。智能代理可以在用戶端進行

，也可以在服務器端運行。

3.采用分布式體系結構提高系統(tǒng)規(guī)模和性能

搜索引擎的實現(xiàn)可以采用集中式體系結構和分布式體系結構，兩種方法各有千秋。但

當系統(tǒng)規(guī)模到達一定程度（如網(wǎng)頁數(shù)達到億級）時，必然要采用某種分布式方法，以提高

系統(tǒng)性能。搜索引擎的各個組成部分，除了用戶接口之外，都可以進行分布：搜索器可以

在多臺機器上相互合作、相互分工進行信息發(fā)現(xiàn)，以提高信息發(fā)現(xiàn)和更新速度；索引器可

以將索引分布在不同的機器上，以減小索引對機器的要求；檢索器可以在不同的機器上.

四、搜索引擎的工作內(nèi)容有哪些?

抓取網(wǎng)頁。每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲（spider）。爬蟲Spider順著網(wǎng)頁中的超鏈接，從這個網(wǎng)站爬到另一個網(wǎng)站，通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應用很普遍，理論上，從一定范圍的網(wǎng)頁出發(fā)，就能搜集到絕大多數(shù)的網(wǎng)頁。處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后，還要做大量的預處理工作，才能提供檢索服務。其中，最重要的就是提取關鍵詞，建立索引庫和索引。其他還包括去除重復網(wǎng)頁、分詞（中文）、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。提供檢索服務。用戶輸入關鍵詞進行檢索，搜索引擎從索引數(shù)據(jù)庫中找到匹配該關鍵詞的網(wǎng)頁；為了用戶便于判斷，除了網(wǎng)頁標題和URL外，還會提供一段來自網(wǎng)頁的摘要以及其他信息。在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。

搜索引擎的自動信息搜集功能分兩種。一種是定期搜索，即每隔一段時間（比如Google一般是28天），搜索引擎主動派出“蜘蛛”程序，對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索，一旦發(fā)現(xiàn)新的網(wǎng)站，它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索，即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址，它在一定時間內(nèi)（2天到數(shù)月不等）定向向你的網(wǎng)站派出“蜘蛛”程序，掃描你的網(wǎng)站并將有關信息存入數(shù)據(jù)庫，以備用戶查詢。由于搜索引擎索引規(guī)則發(fā)生了很大變化，主動提交網(wǎng)址并不保證你的網(wǎng)站能進入搜索引擎數(shù)據(jù)庫，因此目前最好的辦法是多獲得一些外部鏈接，讓搜索引擎有更多機會找到你并自動將你的網(wǎng)站收錄。

搜索引擎器的主要功能（搜索引擎器的主要功能是什么）