HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    請簡述搜索引擎的發(fā)展趨勢(請簡述搜索引擎的發(fā)展趨勢是什么)

    發(fā)布時間:2023-04-15 15:36:38     稿源: 創(chuàng)意嶺    閱讀: 137        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于請簡述搜索引擎的發(fā)展趨勢的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    請簡述搜索引擎的發(fā)展趨勢(請簡述搜索引擎的發(fā)展趨勢是什么)

    一、搜索引擎的發(fā)展史

    搜索引擎的發(fā)展史和應(yīng)用

    1990年以前,沒有任何人能搜索互聯(lián)網(wǎng).

    1990年,加拿大麥吉爾大學(xué)(University of McGill)計算機學(xué)院的師生開發(fā)出Archie.當(dāng)時,萬維網(wǎng)(World Wide Web)還沒有出現(xiàn),人們通過FTP來共享交流資源.Archie能定期搜集并分析FTP服務(wù)器上的文件名信息,提供查找分別在各個FTP主機中的文件. 用戶必須輸入精確的文件名進(jìn)行搜索,Archie告訴用戶哪個FTP服務(wù)器能下載該文件.雖然Archie搜集的信息資源不是網(wǎng)頁(HTML文件),但和搜索引擎的基本工作方式是一樣的:自動搜集信息資源,建立索引,提供檢索服務(wù).所以,Archie被公認(rèn)為現(xiàn)代搜索引擎的鼻祖.

    Robot(機器人)一詞對編程者有特殊的意義.Computer Robot是指某個能以人類無法達(dá)到的速度不斷重復(fù)執(zhí)行某項任務(wù)的自動程序.由于專門用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的Robot程序被稱為spider程序.

    1993年Matthew Gray開發(fā)了 World Wide Web Wanderer,這是第一個利用HTML網(wǎng)頁之間的鏈接關(guān)系來檢測萬維網(wǎng)規(guī)模的"機器人(Robot)"程序.開始,它僅僅用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來也能夠捕獲網(wǎng)址(URL).

    1994年4月,斯坦福大學(xué)(Stanford University)的兩名博士生,美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo.隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索.因為Yahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實上只是一個可搜索的目錄.雅虎于2002年12月23日收購inktomi,2003年7月14日收購包括Fast和 Altavista在內(nèi)的Overture,2003年11月,Yahoo全資收購3721公司.

    1994年初,華盛頓大學(xué)(University of Washington )的學(xué)生Brian Pinkerton開始了他的小項目WebCrawler.1994年4月20日,WebCrawler正式亮相時僅包含來自6000個服務(wù)器的內(nèi)容.WebCrawler是互聯(lián)網(wǎng)上第一個支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要一般來自人工評論或程序自動取正文的前100個字.

    1994年7月,卡內(nèi)基·梅隆大學(xué)(Carnegie Mellon University) 的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中,創(chuàng)建了Lycos.除了相關(guān)性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個在搜索結(jié)果中使用了網(wǎng)頁自動摘要,而最大的優(yōu)勢還是它遠(yuǎn)勝過其它搜索引擎的數(shù)據(jù)量.

    1994年底,Infoseek正式亮相.其友善的界面,大量的附加功能,使之和Lycos一樣成為搜索引擎的重要代表.

    1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(A Meta Search Engine Roundup).用戶只需提交一次搜索請求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理,提交給多個預(yù)先選定的獨立搜索引擎,并將從各獨立搜索引擎返回的所有查詢結(jié)果, 集中起來處理后再返回給用戶.第一個元搜索引擎,是Washington大學(xué)碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler.

    1995年12月,DEC的正式發(fā)布AltaVista.AltaVista是第一個支持自然語言搜索的搜索引擎,第一個實現(xiàn)高級搜索語法的搜索引擎(如 AND, OR, NOT等).用戶可以用AltaVista搜索新聞組(Newsgroups)的內(nèi)容并從互聯(lián)網(wǎng)上獲得文章,還可以搜索圖片名稱中的文字,搜索 Titles,搜索Java applets,搜索ActiveX objects.AltaVista也聲稱是第一個支持用戶自己向網(wǎng)頁索引庫提交或刪除URL的搜索引擎,并能在24小時內(nèi)上線.AltaVista最有趣的新功能之一,是搜索有鏈接指向某個URL的所有網(wǎng)站.在面向用戶的界面上,AltaVista也作了大量革新.它在搜索框區(qū)域下放了"tips"以幫助用戶更好的表達(dá)搜索式,這些小tip經(jīng)常更新,這樣,在搜索過幾次以后,用戶會看到很多他們可能從來不知道的的有趣功能.這系列功能,逐漸被其它搜索引擎廣泛采用.1997年,AltaVista發(fā)布了一個圖形演示系統(tǒng)LiveTopics,幫助用戶從成千上萬的搜索結(jié)果中找到想要的.

    1995年9月26日,加州伯克利分校助教Eric Brewer,博士生Paul Gauthier創(chuàng)立了Inktomi,1996年5月20日,Inktomi公司成立,強大的HotBot出現(xiàn)在世人面前.聲稱每天能抓取索引1千萬頁以上,所以有遠(yuǎn)超過其它搜索引擎的新內(nèi)容.HotBot也大量運用cookie儲存用戶的個人搜索喜好設(shè)置.

    1997年8月,Northernlight搜索引擎正式現(xiàn)身.它曾是擁有最大數(shù)據(jù)庫的搜索引擎之一,它沒有Stop Words,它有出色的Current News,7,100多出版物組成的Special Collection,良好的高級搜索語法,第一個支持對搜索結(jié)果進(jìn)行簡單的自動分類.

    1998年10月之前,Google只是斯坦福大學(xué)(Stanford University)的一個小項目BackRub.1995年博士生Larry Page開始學(xué)習(xí)搜索引擎設(shè)計,于1997年9月15日注冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan,Alan Steremberg的共同參與下,BachRub開始提供Demo.1999年2月,Google完成了從Alpha版到Beta版的蛻變.Google公司則把1998年9月27日認(rèn)作自己的生日.Google以網(wǎng)頁級別(Pagerank)為基礎(chǔ),判斷網(wǎng)頁的重要性,使得搜索結(jié)果的相關(guān)性大大增強.Google公司的奇客(Geek)文化氛圍,不作惡(Don't be evil)的理念,為Google贏得了極高的口碑和品牌美譽.2006年4月,Google宣布其中文名稱"谷歌",這是Google第一個在非英語國家起的名字.

    Fast(Alltheweb)公司創(chuàng)立于1997年,是挪威科技大學(xué)(NTNU)學(xué)術(shù)研究的副產(chǎn)品.1999年5月,發(fā)布了自己的搜索引擎 AllTheWebi.Fast創(chuàng)立的目標(biāo)是做世界上最大和最快的搜索引擎,幾年來庶幾近之.Fast(Alltheweb)的網(wǎng)頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索,圖像搜索,視頻,MP3,和FTP搜索,擁有極其強大的高級搜索功能.(2003年 2月25日,Fast的互聯(lián)網(wǎng)搜索部門被Overture收購).

    1996年8月,sohu公司成立,制作中文網(wǎng)站分類目錄,曾有"出門找地圖,上網(wǎng)找搜狐"的美譽.隨著互聯(lián)網(wǎng)網(wǎng)站的急劇增加,這種人工編輯的分類目錄已經(jīng)不適應(yīng).sohu于2004年8月獨立域名的搜索網(wǎng)站"搜狗",自稱"第三代搜索引擎".

    Openfind 創(chuàng)立于1998年1月,其技術(shù)源自臺灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實驗室.Openfind起先只做中文搜索引擎,鼎盛時期同時為三大著名門戶新浪,奇摩,雅虎提供中文搜索引擎,但2000年后市場逐漸被Baidu和Google瓜分.2002年6月,Openfind重新發(fā)布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網(wǎng)頁35億,開始進(jìn)入英文搜索領(lǐng)域.

    2000年1月,兩位北大校友,超鏈分析專利發(fā)明人,前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士后)在北京中關(guān)村創(chuàng)立了百度 (Baidu)公司.2001年8月發(fā)布Baidu.com搜索引擎Beta版(此前Baidu只為其它門戶網(wǎng)站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發(fā)布Baidu搜索引擎,專注于中文搜索.Baidu搜索引擎的其它特色包括:百度快照,網(wǎng)頁預(yù)覽/預(yù)覽全部網(wǎng)頁,相關(guān)搜索詞,錯別字糾正提示,mp3搜索,Flash搜索.2002年3月閃電計劃(Blitzen Project)開始后,技術(shù)升級明顯加快.后推出貼吧,知道,地圖,國學(xué),百科等一系列產(chǎn)品,深受網(wǎng)民歡迎.2005年8月5日在納斯達(dá)克上市,發(fā)行價為USD 27.00,代號為BIDU.開盤價USD 66.00,以USD 122.54收盤,漲幅353.85%,創(chuàng)下了5年以來美國股市上市新股當(dāng)日漲幅最高紀(jì)錄.

    2003年12月23日,原慧聰搜索正式獨立運做,成立了中國搜索.2004年2月,中國搜索發(fā)布桌面搜索引擎網(wǎng)絡(luò)豬1.0,2006年3月中搜將網(wǎng)絡(luò)豬更名為IG(Internet Gateway) .

    2005年6月,新浪正式推出自主研發(fā)的搜索引擎"愛問".

    搜 索 引 擎 分 類

    搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine),目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine).

    全文搜索引擎

    全文搜索引擎是名副其實的搜索引擎,國外具代表性的有 Google,Fast/AllTheWeb,AltaVista,Inktomi,Teoma,WiseNuti等,國內(nèi)著名的有百度(Baidu). 它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎.

    從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱"蜘蛛"(Spider)程序或"機器人" (Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎.

    目錄索引

    目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已.用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords) 查詢,僅靠分類目錄也可找到需要的信息.目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎.其他著名的還有Open Directory Project(DMOZ),LookSmart,About等.國內(nèi)的搜狐,新浪,網(wǎng)易搜索也都屬于這一類.

    元搜索引擎

    元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進(jìn)行搜索,并將結(jié)果返回給用戶.著名的元搜索引擎有 InfoSpace,Dogpile,Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎.在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo.

    除上述三大類引擎外,還有集合式搜索引擎,門戶搜索引擎,免費鏈接列表等幾種非主流形式:

    由于上述網(wǎng)站都為用戶提供搜索查詢服務(wù),為方便起見,我們通常將其統(tǒng)稱為搜索引擎.

    幾種搜索引擎的特點

    百度搜索引擎的特點

    百度搜索引擎使用了高性能的"網(wǎng)絡(luò)蜘蛛"程序自動的在互聯(lián)網(wǎng)中搜索信息,可定制,高擴展性的調(diào)度算法使得搜索器能在極短的時間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息.百度在中國各地和美國均設(shè)有服務(wù)器,搜索范圍涵蓋了中國大陸,香港,臺灣,澳門,新加坡等華語地區(qū)以及北美,歐洲的部分站點.百度搜索引擎擁有目前世界上最大的中文信息庫,總量達(dá)到6000萬頁以上,并且還在以每天幾十萬頁的速度快速增長.由于后臺應(yīng)用了高效的信息索引算法,大大提高了檢索時的響應(yīng)速度和承受大訪問量時的穩(wěn)定性,百度搜索引擎對超過6000萬網(wǎng)頁檢索一次的本地平均響應(yīng)時間小于0.5秒.

    它主要具有以下的特點和功能:

    1)基于字詞結(jié)合的信息處理方式.

    2)支持主流的中文編碼標(biāo)準(zhǔn).

    3)智能相關(guān)度算法.

    4)檢索結(jié)果能標(biāo)示豐富的網(wǎng)頁屬性(如標(biāo)題,網(wǎng)址,時間,大小,編碼,摘要等),并突出用戶的查詢串,便于用戶判斷是否閱讀原文.

    5)百度搜索支持二次檢索(又稱漸進(jìn)檢索或逼進(jìn)檢索).

    6)相關(guān)檢索詞智能推薦技術(shù).

    7)運用多線程技術(shù),高效的搜索算法,穩(wěn)定的UNIX平臺,和本地化的服務(wù)器,保證了最快的響應(yīng)速度.

    8)可以提供一周,二周,四周等多種服務(wù)方式.可以在7天之內(nèi)完成網(wǎng)頁的更新,是目前更新時間最快,數(shù)據(jù)量最大的中文搜索引擎.

    9)檢索結(jié)果輸出支持內(nèi)容類聚,網(wǎng)站類聚,內(nèi)容類聚+網(wǎng)站類聚等多種方式.

    10)智能性,可擴展的搜索技術(shù)保證最快最多的收集互聯(lián)網(wǎng)信息.

    11)分布式結(jié)構(gòu),精心設(shè)計的優(yōu)化算法,容錯設(shè)計保證系統(tǒng)在大訪問量下的高可用性,高擴展性,高性能和高穩(wěn)定性.

    12)高可配置性使得搜索服務(wù)能夠滿足不同用戶的需求.

    13)先進(jìn)的網(wǎng)頁動態(tài)摘要顯示技術(shù).

    14)獨有百度快照.

    15)支持多種高級檢索語法,使用戶查詢效率更高,結(jié)果更準(zhǔn).

    Google搜索引擎特點

    Google搜索引擎是一個利用蜘蛛程序(Spider)以某種方法自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,并由索引器為搜集到的信息建立索引,從而為用戶提供面向網(wǎng)頁的全文檢索服的互聯(lián)網(wǎng)信息查詢系統(tǒng).

    它主要具有以下的特點和功能:

    1)采用了先進(jìn)的網(wǎng)頁級別(PageRankTM)技術(shù).

    2)在同一個界面下,用戶可以定制語言和到何種網(wǎng)站中進(jìn)行搜索.

    3)具有超鏈分析的功能.

    4)遵從關(guān)鍵字的相對位置.

    5)提升了中文搜索引擎的相關(guān)性,而且更好地實現(xiàn)了檢索字串與網(wǎng)頁中文字的語義上的匹配.

    搜狐搜索引擎的特點

    搜狐網(wǎng)站的內(nèi)容豐富多彩,與我們的生活聯(lián)系十分緊密.搜狐分層目錄是專為中國用戶設(shè)計的高質(zhì)量的分類目錄系統(tǒng),把超過15萬個精選的中文站點鏈接歸為18個大類,如:娛樂,計算機與互聯(lián)網(wǎng),工商經(jīng)濟,科學(xué),藝術(shù),文學(xué),生活服務(wù),科學(xué)技術(shù),政治法律等等.而有價值的用戶往往只關(guān)心自己需要的專門信息.所以我們在每個最初目錄下,都建立全面豐富的目錄樹系統(tǒng),構(gòu)成了四通八達(dá)的信息高速公路,方便迅速地把您帶到目的地.分層目錄系統(tǒng)不僅使用戶找到最需要的專門信息,也使廣告客戶更便捷地找到特定的用戶群,達(dá)到最佳的宣傳效果.在搜狐分層目錄之外,還同時設(shè)立了七項搜狐頻道:搜狐新聞,財經(jīng)報道,搜狐體育,網(wǎng)猴, 多媒體,外國資源,搜狐社區(qū).

    它主要具有以下的特點和功能:

    1)最先進(jìn)的人工分類技術(shù);2)友好的全中文界面;3)符合中文語言文化習(xí)慣;4)18個部類,近15萬條鏈接構(gòu)成的樹杈型網(wǎng)頁結(jié)構(gòu);5)最直觀,最輕松為網(wǎng)上用戶提供所需要的內(nèi)容.

    北大天網(wǎng)搜索引擎的特點

    北大天網(wǎng)收錄 135 萬網(wǎng)頁和 9 萬新聞組文章,更新較快;功能規(guī)范;反饋內(nèi)容完整,包括網(wǎng)頁標(biāo)題,日期,長度和代碼;可在反饋結(jié)果中進(jìn)一步檢索;支持電子郵件查詢.無分類查詢.另提供北京大學(xué),中國科院等FTP站點的檢索.

    它主要具有以下的特點和功能:

    1)在語種上支持中英文搜索.國內(nèi)大部分的搜索引擎都只收錄中文網(wǎng)站,用來查找國內(nèi)的英文網(wǎng)站.

    2)在文件格式上即支持www文件傳輸格式,也支持FTP文件傳輸格式.天網(wǎng)將FTP文件分成電影,動畫片,mp3音樂,程序下載,開發(fā)資源共四大類,用戶可以象目錄導(dǎo)航式搜索引擎那樣層層點擊下去查找自己需要的FTP文件.

    如何使用搜索引擎

    搜索引擎可以幫助您在Internet上找到特定的信息,但它們同時也會返回大量無關(guān)的信息.如果您多使用一些下面介紹的技巧,將發(fā)現(xiàn)搜索引擎會花盡可能少的時間找到您需要的確切信息.

    在類別中搜索

    許多搜索引擎(如Yahoo!)都顯示類別,如計算機和Internet,商業(yè)和經(jīng)濟.如果您單擊其中一個類別,然后再使用搜索引擎,您將可以選擇搜索整個Internet還是搜索當(dāng)前類別.顯然,在一個特定類別下進(jìn)行搜索所耗費的時間較少,而且能夠避免大量無關(guān)的Web站點.

    當(dāng)然,您或許還想搜索整個Internet,以搜索特定類別之外的信息.

    使用具體的關(guān)鍵字

    如果想要搜索以鳥為主題的Web站點,您可以在搜索引擎中輸入關(guān)鍵字"bird".但是,搜索引擎會因此返回大量無關(guān)信息,如談?wù)撚鹈虻?quot;小鳥球 (birdie)"或烹飪game birds不同方法的Web站點.為了避免這種問題的出現(xiàn),請使用更為具體的關(guān)鍵字,如"ornithology"(鳥類學(xué),動物學(xué)的一個分支).您所提供的關(guān)鍵字越具體,搜索引擎返回?zé)o關(guān)Web站點的可能性就越小.

    使用多個關(guān)鍵字

    您還可以通過使用多個關(guān)鍵字來縮小搜索范圍.例如,如果想要搜索有關(guān)佛羅里達(dá)州邁阿密市的信息,則輸入兩個關(guān)鍵字"Miami"和"Florida".如果只輸入其中一個關(guān)鍵字,搜索引擎就會返回諸如Miami Dolphins足球隊或Florida Marlins棒球隊的無關(guān)信息.一般而言,您提供的關(guān)鍵字越多,搜索引擎返回的結(jié)果越精確.

    使用布爾運算符

    許多搜索引擎都允許在搜索中使用兩個不同的布爾運算符:AND和OR.如果您想搜索所有同時包含單詞"hot"和"dog"的Web站點,只需要在搜索引擎中輸入如下關(guān)鍵字:

    hot AND dog

    搜索將返回以熱狗(hot dog)為主題的Web站點,但還會返回一些奇怪的結(jié)果,如談?wù)撊绾卧谝粋€熱天(hot day)讓一只狗(dog)涼快下來的Web站點.

    如果想要搜索所有包含單詞"hot"或單詞"dog"的Web站點,您只需要輸入下面的關(guān)鍵字:

    hot OR dog

    搜索會返回與這兩個單詞有關(guān)的Web站點,這些Web站點的主題可能是熱狗(hot dog),狗,也可能是不同的空調(diào)在熱天(hot day)使您涼爽,辣醬(hot chilli sauces)或狗糧等.

    留意搜索引擎返回的結(jié)果

    搜索引擎返回的Web站點順序可能會影響人們的訪問,所以,為了增加Web站點的點擊率,一些Web站點會付費給搜索引擎,以在相關(guān)Web站點列表中顯示在靠前的位置.好的搜索引擎會鑒別Web站點的內(nèi)容,并據(jù)此安排它們的順序,但其他搜索引擎大概不會這么做.

    此外,因為搜索引擎經(jīng)常對最為常用的關(guān)鍵字進(jìn)行搜索,所以許多Web站點在自己的網(wǎng)頁中隱藏了同一關(guān)鍵字的多個副本.這使得搜索引擎不再去查找Internet,以返回與關(guān)鍵字有關(guān)的更多信息.

    正如讀報紙,聽收音機或看電視新聞一樣,請留意您所獲得的信息的來源.搜索引擎能夠幫您找到信息,但無法驗證信息的可靠性.因為任何人都可以在網(wǎng)上發(fā)布信息.

    二、網(wǎng)絡(luò)信息檢索的現(xiàn)狀與發(fā)展

    網(wǎng)絡(luò)信息檢索的現(xiàn)狀與發(fā)展

    1990年以前,網(wǎng)絡(luò)信息檢索的現(xiàn)狀與發(fā)展沒有任何人能夠檢索互聯(lián)網(wǎng)上的信息。應(yīng)該說,所有的網(wǎng)絡(luò)信息檢索工具都是從1990年的Alan Emtage等人發(fā)明的Archie開始的,雖然它當(dāng)時只可以實現(xiàn)簡單意義上的FTP文件檢索。隨著World Wide Web的出現(xiàn)和發(fā)展,基于網(wǎng)頁的信息檢索工具出現(xiàn)并迅速發(fā)展起來。1995年基于網(wǎng)絡(luò)信息檢索工具本身的檢索工具元搜索引擎由美國華盛頓大學(xué)的Eric Selberg 等發(fā)明。伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息檢索工具也取得了十足的發(fā)展,那么這些檢索工具的現(xiàn)狀和發(fā)展趨勢如何呢?本文將試作以探討。

    1.基于網(wǎng)頁的網(wǎng)絡(luò)信息檢索工具的現(xiàn)狀和發(fā)展趨勢

    1.1現(xiàn)狀。網(wǎng)頁是因特網(wǎng)的最主要的組成部份,也是人們獲取網(wǎng)絡(luò)信息的最主要的來源,為了方便人們在大量繁雜的網(wǎng)頁中找尋自己需要的信息,這類檢索工具發(fā)展的最快。一般認(rèn)為,基于網(wǎng)頁的信息檢索工具主要有網(wǎng)頁搜索引擎和網(wǎng)絡(luò)分類目錄兩種。網(wǎng)頁搜索引擎是通過“網(wǎng)絡(luò)蜘蛛”等網(wǎng)頁自動搜尋軟件搜索到網(wǎng)頁,然后自動給網(wǎng)頁上的某些或全部字符做上索引,形成目標(biāo)摘要格式文件以及網(wǎng)絡(luò)可訪問的數(shù)據(jù)庫,供人們檢索網(wǎng)絡(luò)信息的檢索工具。網(wǎng)絡(luò)目錄則是和搜索引擎完全不同,它不會將整個網(wǎng)絡(luò)中每個網(wǎng)站的所有頁面都放進(jìn)去,而是由專業(yè)人員謹(jǐn)慎地選擇網(wǎng)站的首頁,將其放入相應(yīng)的類目中。網(wǎng)絡(luò)目錄的信息量要比搜索引擎少得多,再加上不同的網(wǎng)絡(luò)目錄分類標(biāo)準(zhǔn)有些混亂,不便人們使用,因此雖然它標(biāo)引質(zhì)量比較高,利用它的人還是要比利用搜索引擎的人少的多。

    但是由于網(wǎng)絡(luò)信息的復(fù)雜性和網(wǎng)絡(luò)檢索技術(shù)的限制,這類檢索工具也有著明顯的不足。(1)隨著網(wǎng)頁數(shù)量的迅猛增加,人工無法對其進(jìn)行有效的分類、索引和利用。網(wǎng)絡(luò)用戶面對的是數(shù)量巨大的未組織信息,簡單的關(guān)鍵詞搜索,返回的信息數(shù)量之大,讓用戶無法承受。(2)信息有用性評價困難。一些站點在網(wǎng)頁中大量重復(fù)某些關(guān)鍵字,使得容易被某些著名的搜索引擎選中,以期借此提高站點的地位,但事實上卻可能沒有提供任何對用戶有價值的信息。(3) 網(wǎng)絡(luò)信息日新月異的變更,人們總是期望挑出最新的信息。然而網(wǎng)絡(luò)信息時刻變動,實時搜索幾乎不可能,就是剛剛瀏覽過的網(wǎng)頁,也隨時都有更新、過期、刪除的可能。

    1.2發(fā)展趨勢。網(wǎng)絡(luò)信息檢索工具的發(fā)展主要體現(xiàn)在進(jìn)一步改進(jìn)、完善檢索工具和檢索技術(shù),以提高檢索服務(wù)質(zhì)量,改變網(wǎng)絡(luò)信息檢索不盡如意的地方。主要體現(xiàn)在以下幾個方面:

    1.21網(wǎng)絡(luò)檢索工具開發(fā)提供商之間合作越來越緊密。過去一般網(wǎng)絡(luò)檢索工具提供商只依靠自己建立的數(shù)據(jù)庫來提供檢索服務(wù),檢索范圍有限,而現(xiàn)在某些著名的搜索引擎在購買其他公司的數(shù)據(jù)庫或者技術(shù)內(nèi)核,有的與其他搜索引擎建立伙伴關(guān)系,以便用戶使用。比如著名雅虎現(xiàn)在采用的是Google的搜索內(nèi)核,網(wǎng)易也曾經(jīng)使用Google的搜索內(nèi)核技術(shù)來豐富自己的搜索引擎數(shù)據(jù)庫,硅谷動力、廣州視窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用融合了百度的搜索內(nèi)核技術(shù)等等。

    1.22信息檢索工具專業(yè)化及服務(wù)內(nèi)容深化。一些檢索工具已經(jīng)不再盲目追求加大收錄和標(biāo)引量,而更加注重突出專業(yè)特色。在lycos搜索引擎目錄中,我們可以看到商業(yè)搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、醫(yī)學(xué)搜索引擎等專業(yè)化的網(wǎng)絡(luò)信息檢索紛紛出現(xiàn),信息檢索工具的專業(yè)化已經(jīng)成為一種不可逆轉(zhuǎn)的趨勢。信息檢索服務(wù)商將服務(wù)更加深化:Google推出了網(wǎng)頁引文查詢服務(wù),通過它可以查看自己所要查詢的資料被其他網(wǎng)站引用的情況,從而使用戶更好的把握網(wǎng)頁信息的質(zhì)量;2003年8月,第三代中文搜索引擎慧聰問世,它則集“廣泛的地域搜索”、“強大的行業(yè)搜索”、“完美的MP3、Flash搜索”眾多搜索功能為一體,還開發(fā)了“針對內(nèi)容的相關(guān)性查詢”和“符合漢語特性的模糊查詢”,可以實現(xiàn)漢語拼音查詢和同音詞糾錯。

    1.23網(wǎng)絡(luò)信息工具智能化的發(fā)展趨勢:(1)信息檢索工具的智能化首先是網(wǎng)絡(luò)蜘蛛的智能化。針對網(wǎng)絡(luò)信息的動態(tài)更替性,網(wǎng)絡(luò)蜘蛛通過啟發(fā)式學(xué)習(xí)采取最有效的搜索策略,選擇最佳時機獲取從Internet上自動收集、整理的信息。網(wǎng)絡(luò)蜘蛛能在網(wǎng)絡(luò)的任何地方工作,能盡可能地挖掘和獲得信息。網(wǎng)絡(luò)蜘蛛還要有網(wǎng)頁跟蹤監(jiān)測功能,如果網(wǎng)頁出現(xiàn)更新、刪除等情況要及時在數(shù)據(jù)庫中更新。網(wǎng)絡(luò)蜘蛛具有跨平臺工作和處理多種混合文檔結(jié)構(gòu)的能力。(2)其次是檢索軟件的智能化?,F(xiàn)在主要有智能搜索引擎、智能瀏覽器、智能代理。這些網(wǎng)絡(luò)檢索工具都非常重視開發(fā)實現(xiàn)基于自然語言形式的輸入,檢索者可以將自己的檢索提問以及所習(xí)慣的短語、詞組甚至句子等自然語言的形式輸入,智能化的檢索軟件將能夠自動分析,而后形成檢索策略進(jìn)行檢索。比如現(xiàn)在的百度搜索可以在你輸入關(guān)鍵詞以后,不斷提供一些相近的關(guān)鍵詞供你選擇,直至找到你所需要的結(jié)果。Google則借助于機器翻譯技術(shù),將一種自然語言轉(zhuǎn)變成另外一種自然語言,使用戶能夠使用母語搜索非母語的網(wǎng)頁,并以母語瀏覽搜索結(jié)果。尤里卡、問一問、和國外的ASK Jeeves則通過語義技術(shù)和檢索技術(shù)的結(jié)合,可是實現(xiàn)檢索工具對搜索詞在語義層次上的理解,為用戶提供最準(zhǔn)確地檢索服務(wù)。

    2.基于FTP文件的搜索工具。

    2.1現(xiàn)狀。如前所述,搜索引擎的雛形以及最早的搜索引擎都是基于FTP文件搜索的。最早的FTP搜索引擎是基于文本顯示的Archie。后來由于WEB的出現(xiàn),F(xiàn)TP搜索引擎發(fā)展受到了一定的影響。直到基于WEB的FTP搜索引擎出現(xiàn),它才越來越多受到人們的歡迎,用戶量也在迅速上升,重要性也日漸顯現(xiàn)出來。FTP搜索引擎的功能是搜集匿名FTP服務(wù)器提供的目錄列表并向用戶提供文件信息的查詢服務(wù)。目前,國內(nèi)做的最好的、規(guī)模最大的當(dāng)屬天網(wǎng)FTP文件搜索引擎,現(xiàn)在可以搜索2400萬個文件(數(shù)據(jù)來源于天網(wǎng)主頁),2002年時的統(tǒng)計日訪問量是40萬次,這在世界FTP搜索引擎界也算是一個佼佼者。另外國內(nèi)還有清華9#搜索引擎、西安交大思源搜索、華南木棉搜索引擎、網(wǎng)絡(luò)指南針、中科大天狼搜索引擎以及南京理工的“一網(wǎng)打盡”搜索引擎等等,國外的有Philes.com、AlltheWeb.com、Filesearching.com、souborak.com和ftpfind.com等,其中ftpfind.com是目前國外最先進(jìn)的,支持包括站點快照和文件分類等新興功能,而且文件數(shù)據(jù)量非常大。

    近幾年來,雖然FTP搜索引擎技術(shù)發(fā)展的很快,但相對WWW搜索引擎而言,F(xiàn)TP搜索引擎為數(shù)不多,技術(shù)上也還不十分成熟,還有很多需要改進(jìn)的地方:(1)FTP搜索引擎的收錄數(shù)量還比較少,搜索引擎的規(guī)模和質(zhì)量還是要取決于其維護的信息量。據(jù)統(tǒng)計,全球匿名FTP服務(wù)提供的文件條目已經(jīng)有數(shù)億條,即便是目前規(guī)模最大的Philes.com,據(jù)陳華、李曉明2002年7月份統(tǒng)計也只有209,698,206 個文件。(2)檢索功能還不完善。檢索功能是一個搜索引擎最重要的部分,有很多搜索引擎還不能支持“and”和“or”等簡單的布爾檢索,使得數(shù)據(jù)庫中的文件不能被檢索到。(3)FTP服務(wù)器本身特點決定了FTP搜索引擎弱點,即由于FTP服務(wù)器有開放時間、有的還限制IP地址、有的限制登陸的用戶量、不同的服務(wù)器設(shè)立的聯(lián)接端口號并不相同等決定了其搜索到的結(jié)果有一部分是不能訪問的,大大降低了用戶的滿意度。

    2.2發(fā)展趨勢。正如前文所述,F(xiàn)TP文件搜索引擎技術(shù)還不是很成熟,但其發(fā)展非常迅速,其發(fā)展趨勢主要表現(xiàn)在以下幾個方面:(1)檢索功能日益豐富。天網(wǎng)FTP文件搜索引擎現(xiàn)在可以實現(xiàn)以文件大小、文件的上傳日期、以及網(wǎng)段(比如說是華北網(wǎng)、華東網(wǎng)等)等多個條件的高級檢索來限制檢索結(jié)果;AlltheWeb.com增加了檢索方式(規(guī)則表達(dá)檢索、準(zhǔn)確檢索、瀏覽、對大小寫敏感與否等等),限制主機(是edu還是gov或者com等),文件類型以及文件大小、日期等功能。(2)檢索服務(wù)的個性化。現(xiàn)在FTP搜索引擎研究者已經(jīng)開始注意這一方面,天網(wǎng)ftp搜索引擎已經(jīng)有了很多可以個性化的選項:可以設(shè)置用戶不同偏好的排序方式,可以設(shè)定國外文件優(yōu)先還是本國文件優(yōu)先,對于國外用戶是不是應(yīng)該國外文件優(yōu)先,是FTP上文件優(yōu)先還是WWW上的文件優(yōu)先,是選擇中文的還是英文的等等。AlltheWeb.com則是可以完成更豐富的個性化設(shè)置,比如說可以選擇一個主機提供一個結(jié)果、設(shè)置語言、搜索的文件大小設(shè)置、是否亮度顯示搜索關(guān)鍵詞、設(shè)置使用者語言、以及鍵盤快捷鍵等等。

    3.基于網(wǎng)絡(luò)檢索工具的檢索技術(shù)的現(xiàn)狀和發(fā)展趨勢。

    3.1隨著網(wǎng)上信息資源的膨脹發(fā)展,一種搜索引擎,無論它多么完善都不可能滿足一個人所有的檢索需求。如果遇到文獻(xiàn)普查、專題查詢、新聞?wù){(diào)查與溯源、軟件及MP3下載地址搜索等情況,人們就更需要使用多種搜索引擎來比較、篩選和相互印證。為解決逐一登陸各搜索引擎,在各搜索引擎中分別多次輸入同一檢索請求(檢索字串)等煩瑣操作,基于網(wǎng)絡(luò)檢索工具的檢索工具產(chǎn)生了。

    目前這列檢索工具只要有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎是在一個檢索界面上鏈接若干種獨立的搜索引擎,檢索時,一次檢索輸入,可以指定搜索引擎也可以要求多個引擎同時檢索,搜索結(jié)果由各搜索引擎分別以不同頁面提交的網(wǎng)絡(luò)檢索工具,其實是利用網(wǎng)站鏈接技術(shù)形成的搜索引擎集合。集成搜索引擎制作與維護技術(shù)簡單,可隨時對所鏈接的搜索引擎進(jìn)行增刪調(diào)整和及時更新,尤其大規(guī)模專業(yè)(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。如國內(nèi)天網(wǎng)搜霸和百度搜霸,國外比較著名的有“搜索之家”(http://so.web165.com/)、“網(wǎng)際瑞士軍刀”(http://free.okey.net/~free/search1.htm)等。另一個是元搜索引擎,用戶只需遞交一次檢索請求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨立搜索引擎,并將所有查詢結(jié)果集中起來以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。國外比較著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle(以上五個為2002年度的最佳元搜索引擎)等。目前國內(nèi)現(xiàn)在還沒有見到真正意義上的元搜索引擎。元搜索引擎雖沒有網(wǎng)頁搜尋機制,亦無獨立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)支持。目前元搜索引擎技術(shù)主要有并行處理式和串行處理式兩大類。并行式元搜索引擎運行時是將查詢請求同時發(fā)向各個獨立搜索引擎,然后將的結(jié)果按特定的順序呈現(xiàn)給用戶;串行式元搜索引擎運行時是將查詢請求先發(fā)向某個獨立搜索引擎,待其返回結(jié)果后再將請求發(fā)往另一個獨立搜索引擎。

    從第一個元搜索引擎Metacrawler誕生至今,這一新型的網(wǎng)絡(luò)檢索工具異軍突起,發(fā)展迅速,目前可用的元搜索引擎已近百種。由于元搜索引擎的功能受著源搜索引擎和元搜索技術(shù)的雙重制約,元搜索引擎比較理想的并不多見。信息檢索專家邢志宇將元搜索引擎存在的問題歸納如下:(1)大多元搜索引擎不支持多語種,尤其是漢語檢索;(2)一些元搜索引擎實現(xiàn)檢索語法轉(zhuǎn)換的能力有限,不支持指定字段檢索,不能充分發(fā)揮各個獨立搜索引擎的高級檢索功能;(3)部分元搜索引擎無源搜索引擎列表,用戶不能自主選擇和調(diào)用源搜索引擎;(4)大部分元搜索引擎僅支持調(diào)用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;(5)在檢索結(jié)果上,元搜索引擎只能返回十幾、數(shù)十條“相關(guān)度”較高的結(jié)果,大量可能有價值的源搜索引擎的檢索結(jié)果被忽視,影響檢索結(jié)果的全面性。

    3.2發(fā)展趨勢。這類檢索工具的發(fā)展趨勢主要表現(xiàn)在下面幾個方面:(1)檢索結(jié)果整理的深化。如Vivisimo、EZ2WWW、MetaCrawler等可以實現(xiàn)搜索結(jié)果的自動分類,用戶即可以利用傳統(tǒng)的方式瀏覽結(jié)果,也可以利用其同屏的分類結(jié)果提示找尋自己需要的內(nèi)容。EZ2WWW高級搜索功能提供1000多種專項資源檢索,可進(jìn)行目錄檢索。SurfWax有一個其它元搜索引擎沒有的獨特功能,即點擊每條結(jié)果左邊的“網(wǎng)址撳鈕”圖標(biāo),可瀏覽該結(jié)果包括的任何頁面,并顯示搜索語句在文件中的位置,也可以把搜索結(jié)果和文件存儲起來以備后用。天網(wǎng)搜霸已經(jīng)擁有了獨特的鏈接檢測功能,在幾秒鐘內(nèi)檢查當(dāng)前頁面查詢結(jié)果是否可以訪問,如果為標(biāo)注綠色,則鏈接可連通(目前僅檢測頁面內(nèi)以http://和ftp://開頭的鏈接)(2)檢索界面的個性化趨勢。天網(wǎng)搜霸和Google提供了IE瀏覽器的插件,安裝后就會被嵌到IE的工具欄,用戶不用登陸天網(wǎng)的主頁,就可以實現(xiàn)檢索。用戶可以將自己喜歡的搜索引擎設(shè)置為主要搜索,也可以添加用戶自己喜歡的搜索引擎。天網(wǎng)搜霸不久前剛剛推出了可以嵌在Windows系統(tǒng)任務(wù)欄上的插件,現(xiàn)在用戶連打開IE瀏覽器都不需要了。Mamma可以選擇使用短語檢索功能、設(shè)定檢索時間、設(shè)定每頁可顯示記錄數(shù),還提供了專門檢索頁面文件標(biāo)題的特殊檢索服務(wù),以及通過E-mail傳輸檢索結(jié)果的特色功能。MetaCrawler可以實現(xiàn)搜索引擎的選擇調(diào)用,基于域名、地區(qū)或國家的檢索結(jié)果過濾,最長檢索時間設(shè)置,每頁可顯示的和允許每個搜索引擎返回的檢索結(jié)果數(shù)量的設(shè)定,設(shè)定檢索結(jié)果排序依據(jù)(包括相關(guān)度、域名、源搜索引擎)個性化定制保存。(3)智能化。ProFusion可以自動實現(xiàn)符合特殊檢索語法要求的轉(zhuǎn)換,如在調(diào)用Excite、InfoSeek、WebCrawler時將“NEAR”轉(zhuǎn)換成“AND”,在調(diào)用GoTo、Yahoo時將“NOT”刪除等;Mamma也支持常用檢索語法在不同搜索引擎中的轉(zhuǎn)換;C4可以支持自然語言檢索,雖然它沒有自己的數(shù)據(jù)庫,卻可以提供網(wǎng)上的檢索結(jié)果。

    三、搜索引擎技術(shù)的相關(guān)書籍

    中文名: 《搜索引擎技術(shù)》 作者: 趙杰 / 趙杰 編 類別: 互聯(lián)網(wǎng)技術(shù) 價格: 25.00元 語種: 中文 出版社: 哈爾濱工程大學(xué)出版社 頁數(shù): 181頁 開本: 16開 出版時間: 2007年11月1日 裝幀: 平裝 《搜索引擎技術(shù)》比較系統(tǒng)地介紹了互聯(lián)網(wǎng)搜索引擎的工作原理、信息預(yù)處理和查詢過程及其用到的關(guān)鍵技術(shù)。全書共分7章,從基本工作原理概述開始,到一個小型簡單專題搜索引擎實現(xiàn)的具體細(xì)節(jié),進(jìn)而詳細(xì)討論了歧義字段自動識別技術(shù)和命名實體自動識別技術(shù);最后基于Agent與Multi-Agent技術(shù),闡述了基于Agent的個性化信息檢索系統(tǒng)的實現(xiàn)過程?!端阉饕婕夹g(shù)》層次分明,由淺入深;既有深入的理論分析,也有大量的實驗數(shù)據(jù),具有學(xué)習(xí)和實用雙重意義。

    《搜索引擎技術(shù)》可作為高等院校計算機科學(xué)與技術(shù)、信息管理與信息系統(tǒng)、電子商務(wù)等專業(yè)的研究生或高年級本科生的教學(xué)參考書和技術(shù)資料,對廣大從事網(wǎng)絡(luò)技術(shù)、Web站點的管理、數(shù)字圖書館、Web挖掘等研究和應(yīng)用開發(fā)的科技人員也有很大的參考價值。 第1章 緒論

    1.1 搜索引擎的概念

    1.2 搜索引擎的分類

    1.3 搜索引擎的發(fā)展現(xiàn)狀

    1.4 搜索引擎的發(fā)展趨勢

    第2章 Web搜索引擎的工作原理

    2.1 搜索引擎的基本要求

    2.2 爬蟲

    2.3 預(yù)處理

    2.4 查詢服務(wù)

    第3章 數(shù)據(jù)預(yù)處理

    3.1 數(shù)據(jù)源

    3.2 Web文本信息提取

    3.3 去噪

    3.4 分詞

    3.5 特征提取

    3.6 文檔表示

    3.7 降維

    第4章 Web信息查詢系統(tǒng)

    4.1 查詢系統(tǒng)的結(jié)構(gòu)

    4.2 檢索的定義

    4.3 查詢系統(tǒng)的實現(xiàn)

    第5章 自動分詞技術(shù)

    5.1 引言

    5.2 中文自動分詞方法

    5.3 自動分詞詞典機制

    5.4 歧義字段自動識別技術(shù)

    5.5 命名實體自動識別技術(shù)

    第6章 面向?qū)n}的信息搜集和處理

    6.1 專題搜索引擎的構(gòu)建

    6.2 專題搜索引擎的文本自動分類和專題分詞技術(shù)

    6.3 基于向量空間模型的文本聚類

    第7章 基于Agent的智能搜索引擎技術(shù)

    7.1 Agent與Multi-Agent技術(shù)

    7.2 Agent技術(shù)在信息檢索中的應(yīng)用

    7.3 Agent實現(xiàn)技術(shù)

    7.4 Agent與智能信息檢索

    7.5 基于Agent的個性化信息檢索系統(tǒng)

    請簡述搜索引擎的發(fā)展趨勢(請簡述搜索引擎的發(fā)展趨勢是什么)

    四、搜索引擎的工作原理

    搜索引擎的基本工作原理包括如下三個過程:首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時對信息進(jìn)行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。

    1、抓取網(wǎng)頁。每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲(spider)。爬蟲Spider順著網(wǎng)頁中的超鏈接,從這個網(wǎng)站爬到另一個網(wǎng)站,通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。

    2、處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫和索引。其他還包括去除重復(fù)網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。

    3、提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。

    以上就是關(guān)于請簡述搜索引擎的發(fā)展趨勢相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    請簡述渠道促銷的5個原則(請簡述渠道促銷的5個原則是)

    請簡述廣告媒體的選擇(請簡述廣告媒體選擇的基本原則)

    簡述網(wǎng)絡(luò)營銷的優(yōu)勢是什么(請簡述網(wǎng)絡(luò)營銷的優(yōu)勢)

    奉化景點排行榜(奉化景點排行榜前十)

    線上活動推廣方式(線上活動推廣方式有哪些)