正文

世界各國搜索引擎（世界各國搜索引擎地圖）

發(fā)布時間：2023-03-23 20:25:16 稿源：創(chuàng)意嶺閱讀： 1636 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于世界各國搜索引擎的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、誰有國外一些比較經(jīng)典的網(wǎng)站？
2、搜索引擎如何搜索到信息？
3、GOOGLE搜索對比百度的優(yōu)勢
4、如果有一天美國破產(chǎn)了，對世界各國會有什么損失嗎？

世界各國搜索引擎（世界各國搜索引擎地圖）

一、誰有國外一些比較經(jīng)典的網(wǎng)站？

http://bbs.tradeknow.com/simple/index.php?t1133049.html

給你這個比較實在些

二、搜索引擎如何搜索到信息？

隨著互聯(lián)網(wǎng)的迅猛發(fā)展、WEB信息的增加，用戶要在信息海洋里查找自己所需的信息，就象大海撈針一樣，搜索引擎技術(shù)恰好解決了這一難題（它可以為用戶提供信息檢索服務(wù)）。搜索引擎是指互聯(lián)網(wǎng)上專門提供檢索服務(wù)的一類網(wǎng)站，這些站點的服務(wù)器通過網(wǎng)絡(luò)搜索軟件(例如網(wǎng)絡(luò)搜索機器人)或網(wǎng)絡(luò)登錄等方式，將Intemet上大量網(wǎng)站的頁面信息收集到本地，經(jīng)過加工處理建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫，從而對用戶提出的各種檢索作出響應(yīng)，提供用戶所需的信息或相關(guān)指針。用戶的檢索途徑主要包括自由詞全文檢索、關(guān)鍵詞檢索、分類檢索及其他特殊信息的檢索(如企業(yè)、人名、電話黃頁等)。下面以網(wǎng)絡(luò)搜索機器人為例來說明搜索引擎技術(shù)。

1．網(wǎng)絡(luò)機器人技術(shù)

網(wǎng)絡(luò)機器人(Robot)又被稱作Spider、Worm或Random，核心目的是為獲取Intemet上的信息。一般定義為“一個在網(wǎng)絡(luò)上檢索文件且自動跟蹤該文件的超文本結(jié)構(gòu)并循環(huán)檢索被參照的所有文件的軟件”。機器人利用主頁中的超文本鏈接遍歷WWW，通過U趾引用從一個HT2LIL文檔爬行到另一個HTML文檔。網(wǎng)上機器人收集到的信息可有多種用途，如建立索引、HIML文件合法性的驗證、uRL鏈接點驗證與確認(rèn)、監(jiān)控與獲取更新信息、站點鏡像等。

機器人安在網(wǎng)上爬行，因此需要建立一個URL列表來記錄訪問的軌跡。它使用超文本，指向其他文檔的URL是隱藏在文檔中，需要從中分析提取URL，機器人一般都用于生成索引數(shù)據(jù)庫。所有WWW的搜索程序都有如下的工作步驟：

(1)機器人從起始URL列表中取出URL并從網(wǎng)上讀取其指向的內(nèi)容；

(2)從每一個文檔中提取某些信息(如關(guān)鍵字)并放入索引數(shù)據(jù)庫中；

(3)從文檔中提取指向其他文檔的URL，并加入到URL列表中；

(4)重復(fù)上述3個步驟，直到再沒有新的URL出現(xiàn)或超出了某些限制(時間或磁盤空間)；

(5)給索引數(shù)據(jù)庫加上檢索接口，向網(wǎng)上用戶發(fā)布或提供給用戶檢索。

搜索算法一般有深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。機器人以URL列表存取的方式?jīng)Q定搜索策略：先進(jìn)先出，則形成廣度優(yōu)先搜索，當(dāng)起始列表包含有大量的WWW服務(wù)器地址時，廣度優(yōu)先搜索將產(chǎn)生一個很好的初始結(jié)果，但很難深入到服務(wù)器中去；先進(jìn)后出，則形成深度優(yōu)先搜索，這樣能產(chǎn)生較好的文檔分布，更容易發(fā)現(xiàn)文檔的結(jié)構(gòu)，即找到最大數(shù)目的交叉引用。也可以采用遍歷搜索的方法，就是直接將32位的IP地址變化，逐個搜索整個Intemet。

搜索引擎是一個技術(shù)含量很高的網(wǎng)絡(luò)應(yīng)用系統(tǒng)。它包括網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)動標(biāo)引技術(shù)、檢索技術(shù)、自動分類技術(shù)，機器學(xué)習(xí)等人工智能技術(shù)。

2．索引技術(shù)

索引技術(shù)是搜索引擎的核心技術(shù)之一。搜索引擎要對所收集到的信息進(jìn)行整理、分類、索引以產(chǎn)生索引庫，而中文搜索引擎的核心是分詞技術(shù)。分詞技術(shù)是利用一定的規(guī)則和詞庫，切分出一個句子中的詞，為自動索引做好準(zhǔn)備。目前的索引多采用Non—clustered方法，該技術(shù)和語言文字的學(xué)問有很大的關(guān)系，具體有如下幾點：

(1)存儲語法庫，和詞匯庫配合分出句子中的詞匯；

(2)存儲詞匯庫，要同時存儲詞匯的使用頻率和常見搭配方式；

(3)詞匯寬，應(yīng)可劃分為不同的專業(yè)庫，以便于處理專業(yè)文獻(xiàn)；

(4)對無法分詞的句子，把每個字當(dāng)作詞來處理。

索引器生成從關(guān)鍵詞到URL的關(guān)系索引表。索引表一般使用某種形式的倒排表(1nversionUst)，即由索引項查找相應(yīng)的URL。索引表也要記錄索引項在文檔中出現(xiàn)的位置，以便檢索器計算索引項之間的相鄰關(guān)系或接近關(guān)系，并以特定的數(shù)據(jù)結(jié)構(gòu)存儲在硬盤上。

不同的搜索引擎系統(tǒng)可能采用不盡相同的標(biāo)引方法。例如Webcrawler利用全文檢索技術(shù)，對網(wǎng)頁中每一個單詞進(jìn)行索引；Lycos只對頁名、標(biāo)題以及最重要的100個注釋詞等選擇性詞語進(jìn)行索引；Infoseek則提供概念檢索和詞組檢索，支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。

3.檢索器與結(jié)果處理技術(shù)

檢索器的主要功能是根據(jù)用戶輸入的關(guān)鍵詞在索引器形成的倒排表中進(jìn)行檢索，同時完成頁面與檢索之間的相關(guān)度評價，對將要輸出的結(jié)果進(jìn)行排序，并實現(xiàn)某種用戶相關(guān)性反饋機制。

通過搜索引擎獲得的檢索結(jié)果往往成百上千，為了得到有用的信息，常用的方法是按網(wǎng)頁的重要性或相關(guān)性給網(wǎng)頁評級，進(jìn)行相關(guān)性排序。這里的相關(guān)度是指搜索關(guān)鍵字在文檔中出現(xiàn)的額度。當(dāng)額度越高時，則認(rèn)為該文檔的相關(guān)程度越高。能見度也是常用的衡量標(biāo)準(zhǔn)之一。一個網(wǎng)頁的能見度是指該網(wǎng)頁入口超級鏈接的數(shù)目。能見度方法是基于這樣的觀點：一個網(wǎng)頁被其他網(wǎng)頁引用得越多，則該網(wǎng)頁就越有價值。特別地，一個網(wǎng)頁被越重要的網(wǎng)頁所引用，則該網(wǎng)頁的重要程度也就越高。結(jié)果處理技術(shù)可歸納為：

(1)按頻次排定次序通常，如果一個頁面包含了越多的關(guān)鍵詞，其搜索目標(biāo)的相關(guān)性應(yīng)該越好，這是非常合平常理的解決方案。

(2)按頁面被訪問度排序在這種方法中，搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應(yīng)該包含比較多的信息，或者有其他吸引入的長處。這種解決方案適合一般的搜索用戶，而因為大部分的搜索引擎都不是專業(yè)性用戶，所以這種方案也比較適合一般搜索引擎使用。

(3)二次檢索進(jìn)一步凈化(比flne)結(jié)果，按照一定的條件對搜索結(jié)果進(jìn)行優(yōu)化，可以再選擇類別、相關(guān)詞進(jìn)行二次搜索等。

由于目前的搜索引擎還不具備智能，除非知道要查找的文檔的標(biāo)題，否則排列第一的結(jié)果未必是“最好”的結(jié)果。所以有些文檔盡管相關(guān)程度高，但并不一定是用戶最需要的文檔。

搜索引擎技術(shù)的行業(yè)應(yīng)用：

搜索引擎的行業(yè)應(yīng)用一般指類似于千瓦通信提供的多種搜索引擎行業(yè)與產(chǎn)品應(yīng)用模式，大體上分為如下幾種形式：

1、政府機關(guān)行業(yè)應(yīng)用

n實時跟蹤、采集與業(yè)務(wù)工作相關(guān)的信息來源。

n全面滿足內(nèi)部工作人員對互聯(lián)網(wǎng)信息的全局觀測需求。

n及時解決政務(wù)外網(wǎng)、政務(wù)內(nèi)網(wǎng)的信息源問題，實現(xiàn)動態(tài)發(fā)布。

n快速解決政府主網(wǎng)站對各地級子網(wǎng)站的信息獲取需求。

n全面整合信息，實現(xiàn)政府內(nèi)部跨地區(qū)、跨部門的信息資源共享與有效溝通。

n節(jié)約信息采集的人力、物力、時間，提高辦公效率。

2、企業(yè)行業(yè)應(yīng)用

n實時準(zhǔn)確地監(jiān)控、追蹤競爭對手動態(tài)，是企業(yè)獲取競爭情報的利器。

n及時獲取競爭對手的公開信息以便研究同行業(yè)的發(fā)展與市場需求。

n為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。

n大幅度地提高企業(yè)獲取、利用情報的效率，節(jié)省情報信息收集、存儲、挖掘的相關(guān)費用，是提高企業(yè)核心競爭力的關(guān)鍵。

n提高企業(yè)整體分析研究能力、市場快速反應(yīng)能力，建立起以知識管理為核心的競爭情報數(shù)據(jù)倉庫，是提高企業(yè)核心競爭力的神經(jīng)中樞。

3、新聞媒體行業(yè)應(yīng)用

n快速準(zhǔn)確地自動跟蹤、采集數(shù)千家網(wǎng)絡(luò)媒體信息，擴大新聞線索，提高采集速度。

n支持每天對數(shù)萬條新聞進(jìn)行有效抓取。監(jiān)控范圍的深度、廣度可以自行設(shè)定。

n支持對所需內(nèi)容智能提取、審核。

n實現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

4、行業(yè)網(wǎng)站應(yīng)用

n實時跟蹤、采集與網(wǎng)站相關(guān)的信息來源。

n及時跟蹤行業(yè)的信息來源網(wǎng)站，自動，快速更新網(wǎng)站信息。動態(tài)更新信息。

n實現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

n針對商務(wù)網(wǎng)站提出商務(wù)管理模式，大大提高行業(yè)網(wǎng)站的商務(wù)應(yīng)用需求。

n針對資訊網(wǎng)站分類目錄生成，提出用戶生成網(wǎng)站分類結(jié)構(gòu)。并可以實時增加與更新分類結(jié)構(gòu)。不受級數(shù)限制。從而大大利高行業(yè)的應(yīng)用性。

n提供搜索引擎SEO優(yōu)化專業(yè)服務(wù)，快速提高行業(yè)網(wǎng)站的推廣。

n提供與CCDC呼叫搜索引擎的廣告合作。建立行業(yè)網(wǎng)站聯(lián)盟，提高行業(yè)網(wǎng)站知名度。

5)網(wǎng)絡(luò)信息監(jiān)察與監(jiān)控

n網(wǎng)絡(luò)輿情系統(tǒng)。如“千瓦通信-網(wǎng)絡(luò)輿情雷達(dá)監(jiān)測系統(tǒng)”

n網(wǎng)站信息與內(nèi)容監(jiān)察與監(jiān)控系統(tǒng)，如“千瓦通信-網(wǎng)站信息與內(nèi)容監(jiān)測與監(jiān)察系統(tǒng)（站內(nèi)神探）”

隨著因特網(wǎng)的迅猛發(fā)展、WEB信息的增加，用戶要在信息海洋里查找信息，就象大海撈

針一樣，搜索引擎技術(shù)恰好解決了這一難題（它可以為用戶提供信息檢索服務(wù)）。目前，

搜索引擎技術(shù)正成為計算機工業(yè)界和學(xué)術(shù)界爭相研究、開發(fā)的對象。

搜索引擎（SearchEngine）是隨著WEB信息的迅速增加，從1995年開始逐漸發(fā)展起來

的技術(shù)。據(jù)發(fā)表在《科學(xué)》雜志1999年7月的文章《WEB信息的可訪問性》估計，全球目前

的網(wǎng)頁超過8億，有效數(shù)據(jù)超過9T，并且仍以每4個月翻一番的速度增長。用戶要在如此浩

瀚的信息海洋里尋找信息，必然會"大海撈針"無功而返。搜索引擎正是為了解決這個"迷航

"問題而出現(xiàn)的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對信息進(jìn)行理解

、提取、組織和處理，并為用戶提供檢索服務(wù)，從而起到信息導(dǎo)航的目的。搜索引擎提供

的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù)，搜索引擎站點也被美譽為"網(wǎng)絡(luò)門戶"

。搜索引擎技術(shù)因而成為計算機工業(yè)界和學(xué)術(shù)界爭相研究、開發(fā)的對象。本文旨在對搜索

引擎的關(guān)鍵技術(shù)進(jìn)行簡單的介紹，以起到拋磚引玉的作用。

分類

按照信息搜集方法和服務(wù)提供方式的不同，搜索引擎系統(tǒng)可以分為三大類：

1．目錄式搜索引擎：以人工方式或半自動方式搜集信息，由編輯員查看信息之后，人

工形成信息摘要，并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站，提供目錄瀏

覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因為加入了人的智能，所以信息準(zhǔn)確、導(dǎo)航質(zhì)量高

，缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是

：Yahoo、LookSmart、OpenDirectory、GoGuide等。

2．機器人搜索引擎：由一個稱為蜘蛛（Spider）的機器人程序以某種策略自動地在互

聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息，由索引器為搜集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸

入檢索索引庫，并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜

索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預(yù)，缺點是返回信息過多，有很多無關(guān)

信息，用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是：AltaVista、NorthernLigh

t、Excite、Infoseek、Inktomi、FAST、Lycos、Google；國內(nèi)代表為："天網(wǎng)"、悠游、O

penFind等。

3．元搜索引擎：這類搜索引擎沒有自己的數(shù)據(jù)，而是將用戶的查詢請求同時向多個搜

索引擎遞交，將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后，作為自己的結(jié)果返回給用

戶。服務(wù)方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點是返回結(jié)果的信息量更大、更

全，缺點是不能夠充分使用所使用搜索引擎的功能，用戶需要做更多的篩選。這類搜索引

擎的代表是WebCrawler、InfoMarket等。

性能指標(biāo)

我們可以將WEB信息的搜索看作一個信息檢索問題，即在由WEB網(wǎng)頁組成的文檔庫中檢索

出與用戶查詢相關(guān)的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)-召回率（R

ecall）和精度（Pricision）衡量一個搜索引擎的性能。

召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率，衡量的是檢索系

統(tǒng)（搜索引擎）的查全率；精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率，衡量

的是檢索系統(tǒng)（搜索引擎）的查準(zhǔn)率。對于一個檢索系統(tǒng)來講，召回率和精度不可能兩全

其美：召回率高時，精度低，精度高時，召回率低。所以常常用11種召回率下11種精度的

平均值（即11點平均精度）來衡量一個檢索系統(tǒng)的精度。對于搜索引擎系統(tǒng)來講，因為沒

有一個搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁，所以召回率很難計算。目前的搜索引擎系

統(tǒng)都非常關(guān)心精度。

影響一個搜索引擎系統(tǒng)的性能有很多因素，最主要的是信息檢索模型，包括文檔和查詢

的表示方法、評價文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相

關(guān)度反饋的機制。

主要技術(shù)

一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。

1.搜索器

搜索器的功能是在互聯(lián)網(wǎng)中漫游，發(fā)現(xiàn)和搜集信息。它常常是一個計算機程序，日夜

不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息，同時因為互聯(lián)網(wǎng)上的信

息更新很快，所以還要定期更新已經(jīng)搜集過的舊信息，以避免死連接和無效連接。目前有

兩種搜集信息的策略：

●從一個起始URL集合開始，順著這些URL中的超鏈（Hyperlink），以寬度優(yōu)先、深

度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL，但常常

是一些非常流行、包含很多鏈接的站點（如Yahoo?。?/p>

●將Web空間按照域名、IP地址或國家域名劃分，每個搜索器負(fù)責(zé)一個子空間的窮盡

搜索。搜索器搜集的信息類型多種多樣，包括HTML、XML、Newsgroup文章、FTP文件、

字處理文檔、多媒體信息。搜索器的實現(xiàn)常常用分布式、并行計算技術(shù)，以提高信息

發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。

2.索引器

索引器的功能是理解搜索器所搜索的信息，從中抽取出索引項，用于表示文檔以及生

成文檔庫的索引表。

索引項有客觀索引項和內(nèi)容索引項兩種：客觀項與文檔的語意內(nèi)容無關(guān)，如作者名、

URL、更新時間、編碼、長度、鏈接流行度（LinkPopularity）等等；內(nèi)容索引項是用來

反映文檔內(nèi)容的，如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項可以分為單索引項和

多索引項（或稱短語索引項）兩種。單索引項對于英文來講是英語單詞，比較容易提取，

因為單詞之間有天然的分隔符（空格）；對于中文等連續(xù)書寫的語言，必須進(jìn)行詞語的切

分。在搜索引擎中，一般要給單索引項賦與一個權(quán)值，以表示該索引項對文檔的區(qū)分

度，同時用來計算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短

語索引項的提取方法有統(tǒng)計法、概率法和語言學(xué)法。

索引表一般使用某種形式的倒排表（InversionList），即由索引項查找相應(yīng)的文檔

。索引表也可能要記錄索引項在文檔中出現(xiàn)的位置，以便檢索器計算索引項之間的相鄰或

接近關(guān)系（proximity）。

索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時，必須實現(xiàn)即時

索引（InstantIndexing），否則不能夠跟上信息量急劇增加的速度。索引算法對索引器

的性能（如大規(guī)模峰值查詢時的響應(yīng)速度）有很大的影響。一個搜索引擎的有效性在很大

程度上取決于索引的質(zhì)量。

3.檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔，進(jìn)行文檔與

查詢的相關(guān)度評價，對將要輸出的結(jié)果進(jìn)行排序，并實現(xiàn)某種用戶相關(guān)性反饋機制。

檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。

4.用戶接口

用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。主要的

目的是方便用戶使用搜索引擎，高效率、多方式地從搜索引擎中得到有效、及時的信息。

用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法，以充分適應(yīng)人類的思維習(xí)慣。

用戶輸入接口可以分為簡單接口和復(fù)雜接口兩種。

簡單接口只提供用戶輸入查詢串的文本框；復(fù)雜接口可以讓用戶對查詢進(jìn)行限制，如

邏輯運算（與、或、非；+、-）、相近關(guān)系（相鄰、NEAR）、域名范圍（如.edu、.com）

、出現(xiàn)位置（如標(biāo)題、內(nèi)容）、信息時間、長度等等。目前一些公司和機構(gòu)正在考慮制定

查詢選項的標(biāo)準(zhǔn)。

未來動向

搜索引擎已成為一個新的研究、開發(fā)領(lǐng)域。因為它要用到信息檢索、人工智能、計算

機網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和

技術(shù)，所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶，有很好的經(jīng)濟價值，所

以引起了世界各國計算機科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注，目前的研究、開發(fā)十分活躍，

并出現(xiàn)了很多值得注意的動向。

1.十分注意提高信息查詢結(jié)果的精度，提高檢索的有效性用戶在搜索引擎上進(jìn)行

信息查詢時，并不十分關(guān)注返回結(jié)果的多少，而是看結(jié)果是否和自己的需求吻合。對于一

個查詢，傳統(tǒng)的搜索引擎動輒返回幾十萬、幾百萬篇文檔，用戶不得不在結(jié)果中篩選。解

決查詢結(jié)果過多的現(xiàn)象目前出現(xiàn)了幾種方法：一是通過各種方法獲得用戶沒有在查詢語句

中表達(dá)出來的真正用途，包括使用智能代理跟蹤用戶檢索行為，分析用戶模型；使用相關(guān)

度反饋機制，使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)（及其相關(guān)的程度），哪些

不相關(guān)，通過多次交互逐步求精。二是用正文分類（TextCategorization）技術(shù)將結(jié)果分

類，使用可視化技術(shù)顯示分類結(jié)構(gòu)，用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點類

聚或內(nèi)容類聚，減少信息的總量。

2.基于智能代理的信息過濾和個性化服務(wù)

信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機制。它使用自動獲得的領(lǐng)域模型（如We

b知識、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu)）、用戶模型（如用戶背景

、興趣、行為、風(fēng)格）知識進(jìn)行信息搜集、索引、過濾（包括興趣過濾和不良信息過濾）

，并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適

應(yīng)信息和用戶興趣動態(tài)變化的能力，從而提供個性化的服務(wù)。智能代理可以在用戶端進(jìn)行

，也可以在服務(wù)器端運行。

3.采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能

搜索引擎的實現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu)，兩種方法各有千秋。但

當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度（如網(wǎng)頁數(shù)達(dá)到億級）時，必然要采用某種分布式方法，以提高

系統(tǒng)性能。搜索引擎的各個組成部分，除了用戶接口之外，都可以進(jìn)行分布：搜索器可以

在多臺機器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn)，以提高信息發(fā)現(xiàn)和更新速度；索引器可

以將索引分布在不同的機器上，以減小索引對機器的要求；檢索器可以在不同的機器上.

三、GOOGLE搜索對比百度的優(yōu)勢

百度，這個自稱是全球最大的中文搜索引擎，經(jīng)過這幾年來的發(fā)展，在中國的市場占有率已經(jīng)超過了Google，獨占國內(nèi)搜索流量的第一名。作為中國最大的搜索引擎的百度，目前的確非常風(fēng)光，在業(yè)界被千萬光環(huán)所籠罩，但是它真的值得用戶信賴和尊敬嗎？百度是如何對待自己的產(chǎn)品，如何對待自己的用戶呢？讓我們一起來看一個真實的百度。

模仿抄襲

從百度成立的第一天起，百度就和抄襲結(jié)下了不解之緣，百度抄襲最多的產(chǎn)品當(dāng)然是Google搜索引擎，從外觀上看，百度整個網(wǎng)站的風(fēng)格和Google如出一轍。當(dāng)然，百度的抄襲不僅僅是界面這種低級的抄襲，更高級的抄襲是在搜索引擎的底層技術(shù)進(jìn)行抄襲。Google搜索的技術(shù)核心是PageRank專利技術(shù)，通過對網(wǎng)頁的鏈接進(jìn)行計算而對網(wǎng)頁的重要性做出客觀的評價，而百度核心技術(shù)竟然和Google類似，也是通過超鏈分析產(chǎn)生不同的搜索結(jié)果。當(dāng)然，對于這個問題百度也有自己的說法，百度總裁李彥宏就曾經(jīng)在接受Forbes采訪時宣稱Google始創(chuàng)于1998年的PageRank技術(shù)專利為其持有，Google抄襲了百度的 PageRank技術(shù)云云。

當(dāng)然，百度的抄襲絕不僅僅如此，百度的發(fā)展史簡直就是一部抄襲的歷史，幾乎所有Google的產(chǎn)品，只要百度有能力抄襲的產(chǎn)品，它就會不遺余力地進(jìn)行抄襲。Google出了“地圖服務(wù)”后，Baidu也推出“百度地圖”，Google推出“桌面搜索”，Baidu就出“百度硬盤搜索”，Google出“工具欄”，Baidu也出“搜霸工具欄”，Google推出“新聞快訊訂閱”，百度也出“郵件新聞訂閱”，Google推出“Google Answers”，百度也出“百度知道”，Google推出“AdSense”，百度就出“百度主題推廣”。當(dāng)然，百度也有自己的說法，百度聲稱自己并不是簡單模仿Google的所作所為，對于Google的一些奇怪的產(chǎn)品，百度是不會模仿的。

Google的精髓在于創(chuàng)新，每推出一個新產(chǎn)品都在市場、客戶的前期需求方面做了大量調(diào)查工作，百度這種“拿來主義”的工作方式，的確為自己節(jié)省了大量的市場調(diào)研費用。但是令人質(zhì)疑的是，一個企業(yè)如果自己產(chǎn)品的大部分功能都只能抄襲自競爭對手，那么它是否會有自己的發(fā)展前途呢？

競價排名

競價排名是百度模仿Google AdWords做的一種按效果付費的網(wǎng)絡(luò)推廣方式，是百度的主要盈利方式，但是其顯示方式和Google AdWords有很大不同。用戶在Google中搜索出來的結(jié)果中，贊助商鏈接位于頁面頂部和右側(cè)，用戶們可以清楚地區(qū)分哪些是正常的搜索結(jié)果，哪些是贊助商們花錢買的位置。百度不僅僅在搜索結(jié)果的右側(cè)有贊助商鏈接，在正常搜索結(jié)果的左側(cè)鏈接也有贊助商廣告，這些廣告鏈接和真實搜索結(jié)果混雜在一起，很難區(qū)分，如果一個廣告用戶出的錢足夠高，那么其廣告鏈接會排在搜索結(jié)果的第一名，這樣的處理，使得用戶的搜索體驗非常糟糕。由于遭到廣泛的批評，百度搜索內(nèi)容的廣告最近有所減少，但是搜索結(jié)果第一頁經(jīng)常大部分或者全部是廣告。

流氓軟件

百度為了獲得更大的流量，開發(fā)了一個頗有爭議的流氓軟件－百度超級搜霸，百度公司稱其能使用戶的搜索更加方便，并且遠(yuǎn)離網(wǎng)頁廣告困擾。但有大量用戶投訴百度超級搜霸強制安裝、難以卸載，在不少論壇中，如何卸載百度超級搜霸插件經(jīng)常成為熱門話題，在2005年北京網(wǎng)絡(luò)行業(yè)協(xié)會設(shè)立的“流氓軟件”網(wǎng)絡(luò)調(diào)查中，百度超級搜霸成為“流氓軟件”排行榜前十名，并被限令整改。然而可笑的是，2006年的3月15日，百度居然賊喊捉賊，自己開通超級搜霸315舉報網(wǎng)站。

侵犯版權(quán)

百度對于知識產(chǎn)權(quán)的保護是比較漠視的，百度自身的很多服務(wù)在國際公認(rèn)的法律中是違法的。例如頗受爭議的百度MP3搜索提供在線播放和下載音樂MP3服務(wù)，一些唱片公司認(rèn)為百度的這種服務(wù)侵犯了唱片公司信息網(wǎng)絡(luò)傳播權(quán)，給唱片公司造成了經(jīng)濟損失，為盜版提供了便利。早期曾有多家唱片公司在北京的法院起訴百度，雖然百度無一勝訴，但是法院裁決百度賠償?shù)慕痤~卻非常少，實際上起到了縱容百度繼續(xù)侵權(quán)的效果。國際上公認(rèn)提供MP3下載是非法的，典型的案例是在臺灣提供音樂下載的Kuro網(wǎng)站負(fù)責(zé)人被判入獄三年并罰款，Google等搜索引擎在各國皆不提供有爭議的MP3搜索。

百度最近開通的另一項服務(wù)－百度百科，更集中了百度的兩大看家法寶－“抄襲”和“侵權(quán)”于一身，肆無忌憚地進(jìn)行大規(guī)模地侵犯知識產(chǎn)權(quán)的行為，在百度百科上找到一條原創(chuàng)的條目如大海撈針般的困難，百度百科開通才兩個星期，其條目數(shù)就超過了中文維基百科幾年來的條目總和。而目前我們國家在著作權(quán)等法律上的漏洞，以及早先在音樂侵權(quán)案件上的低額罰款，使得百度在侵權(quán)方面有了更足的底氣，在侵權(quán)的力度上也更加肆無忌憚（不過某些針對國外的服務(wù)有特殊處理）。

技術(shù)落后

在技術(shù)層面，做為搜索引擎最基本的技術(shù)－收錄頁面的技術(shù)，我們發(fā)現(xiàn)百度收錄網(wǎng)站頁面的技術(shù)相比Google來說是有很大缺陷的，這在我另外一篇文章：《Google和百度收錄網(wǎng)站頁面的比較》中有很詳細(xì)的說明。百度的收錄網(wǎng)頁的機制使得作弊的垃圾網(wǎng)站更容易被收錄，客觀上使得原創(chuàng)的有特色的網(wǎng)站被邊緣化，當(dāng)垃圾站橫行的時候，百度必需投入巨大的精力來封殺作弊的垃圾網(wǎng)站，誤封正常網(wǎng)站的情況比比皆是，對于被封的大流量網(wǎng)站，一些百度的業(yè)務(wù)員威脅網(wǎng)站站長辦理百度競價排名，導(dǎo)致百度和大量站長都結(jié)有恩怨，越來越多的人開始咒罵百度。

冒充民族企業(yè)

百度在對外宣傳上，張口閉口都說自己是所謂的“民族企業(yè)”，比Google等國外公司“更懂中文”，并打著所謂“愛國”的旗號，說反百度就是反對中國的民族產(chǎn)業(yè)，支持Google就是賣國云云。

然而，百度真的是中國公司嗎？事實是：百度公司注冊于英屬開曼群島，百度的創(chuàng)始人李彥宏持有美國綠卡，百度啟動的資金是美國的風(fēng)險投資，現(xiàn)在美資在百度中占有51%以上的份額，百度在中國注冊全資子公司的目的可能是為了規(guī)避中國政府的關(guān)于外資不能進(jìn)入新聞廣告等領(lǐng)域的法規(guī)。因此，百度準(zhǔn)確的說應(yīng)該是一家由華人創(chuàng)辦的、專注于在華業(yè)務(wù)的美資搜索引擎技術(shù)公司。

同行惡意競爭

百度對于同行的惡意競爭的手段可謂層出不窮。在百度趕超Google的過程中，在2002年9月發(fā)生了一起中國封殺Google的事件，導(dǎo)致中國大陸地區(qū)無法訪問Google網(wǎng)站，后來因為各地用戶強烈反對，Google又被解封，但Google的網(wǎng)頁快照功能至今都無法正常使用，據(jù)傳聞稱封殺限制Google前后均由百度在幕后操作。

另外一起著名的事件是8848被百度攻擊案，事件的起因是2004年12月，8848向互聯(lián)網(wǎng)用戶提供一個名為“搜索助手”（MySearch）的流氓軟件，8848稱該軟件能幫助網(wǎng)友更方便搜索網(wǎng)頁，然而網(wǎng)民發(fā)現(xiàn)安裝該軟件后，使用百度進(jìn)行搜索，原有的搜索結(jié)果頁面會被修改，并出現(xiàn)8848所插入的廣告、圖片等鏈接。8848的這種行為當(dāng)然是典型的流氓作風(fēng)，然而百度的后續(xù)做法卻同樣令人無法認(rèn)同。在2005年1月21日，8848網(wǎng)站發(fā)現(xiàn)百度采用分布式拒絕服務(wù)攻擊（DDOS攻擊）的手段，借助幾千家百度搜索聯(lián)盟網(wǎng)站的巨大訪問量集中攻擊8848的服務(wù)器，使8848網(wǎng)站無法被正常訪問至少長達(dá)26 小時，導(dǎo)致網(wǎng)上商城的商戶無法正常銷售、支付和結(jié)算收款。這簡直成了流氓集團間的混戰(zhàn)了。

以上是我總結(jié)出的百度在這些年出現(xiàn)的種種問題，這些問題也許還是中國IT行業(yè)中不少公司所面臨的通病，急功近利、唯利是圖、喪失誠信、同行之間惡意競爭等等，我們衷心地希望百度公司能夠正確地面對自己的錯誤，勇敢地進(jìn)行改正，而不是百般狡辯、抵賴、回避。如果百度還是執(zhí)迷不悟，依舊這樣對待自己的用戶，那么最終百度必定會被自己地用戶所唾棄。

注：我寫本文的直接原因，是因為前幾天看到有人在為百度搖旗吶喊地攻擊Google。

更新：關(guān)于PageRank的專利到底屬于誰，KESO在美國專利和商標(biāo)局網(wǎng)站上查詢到，Lawrence Page（即Larry Page）共有兩項專利被批準(zhǔn)，其中于1998年1月9日提交的PageRank的專利申請（PDF文件下載），于2001年9月4日被批準(zhǔn)，美國專利號6,285,999。Li Yanhong有也有相關(guān)專利，美國專利號：5,920,859。專利提交日期為1997年2月5日，批準(zhǔn)日期為1999年7月6日。這項專利是關(guān)于超文本文檔檢索系統(tǒng)和方法（Hypertext document retrieval system and method）。相關(guān)專家可以來分析兩個專利的相似性。

四、如果有一天美國破產(chǎn)了，對世界各國會有什么損失嗎？

會有損失。

首先，美國作為世界一流強國，不論是在哪個領(lǐng)域都走在了世界的前茅。假設(shè)美國破產(chǎn)了，那么肯定會給全球經(jīng)濟造成大動蕩。

一、航空業(yè)產(chǎn)生巨大影響

我們假設(shè)一下美國的波音公司破產(chǎn)了，可以肯定的說,不止美國，全世界的損失都會是巨大的。因為這是美國核心高技術(shù)產(chǎn)業(yè)，波音公司生產(chǎn)的飛機涉及到美國的民用、軍用、航空航天、國家安全等一系列的問題。而且當(dāng)今世界上很多的國家航空飛機都會選擇美國的波音公司購買，因為本國的航空業(yè)不發(fā)達(dá)。

二、網(wǎng)絡(luò)產(chǎn)生的巨大影響

我們都知道，美國也是網(wǎng)絡(luò)最發(fā)達(dá)的國家之一。很多我們熟知的公司都位于美國硅谷，比如臉書、谷歌等等。很多的人已經(jīng)習(xí)慣這些科技的滲入，比如現(xiàn)今，遇到不懂的事情，我們通常都喜歡上網(wǎng)搜索答案。中國常用百度，很多國外的人則常用谷歌瀏覽器。臉書則是新型的社交軟件，人們可以在上面分享有趣的事，有趣的圖片，是當(dāng)代年輕人娛樂的場所之一。大部分的外國年輕人都會有專屬的臉書賬號，甚至是各國的領(lǐng)導(dǎo)人也會有。一旦這些公司倒閉，那么網(wǎng)絡(luò)就會產(chǎn)生巨大的影響，人們會少了相互交流的軟件，少了搜索的軟件。

三、經(jīng)濟產(chǎn)生巨大影響

幾乎全球500強公司都聚于美國硅谷，一旦這些公司都破產(chǎn)了，那造成的影響是很巨大的。首先，就是人員問題，會造成許多的人沒有工作，其次，很多公司都與其他各國的公司有商業(yè)往來，一旦破產(chǎn)，對于全球的經(jīng)濟勢必會造成重大影響。

以上就是關(guān)于世界各國搜索引擎相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。