HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    全文搜索引擎的概念

    發(fā)布時(shí)間:2023-04-17 17:49:13     稿源: 創(chuàng)意嶺    閱讀: 61        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于全文搜索引擎的概念的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    全文搜索引擎的概念

    一、全文搜索引擎目錄搜索引擎與元搜索引擎的區(qū)別?

    全文搜索引擎、目錄搜索引擎與元搜索引擎的區(qū)別為:數(shù)據(jù)來源不同、操作不同、得到網(wǎng)站不同。

    一、數(shù)據(jù)來源不同

    1、全文搜索引擎:全文搜索引擎的數(shù)據(jù)來源為自動(dòng)抓取的網(wǎng)頁生成索引。

    2、目錄搜索引擎:目錄搜索引擎的數(shù)據(jù)來源為人工收錄分類的數(shù)據(jù)庫。

    3、元搜索引擎:元搜索引擎的數(shù)據(jù)來源為其他搜索引擎獲取結(jié)果。

    二、操作不同

    1、全文搜索引擎:全文搜索引擎通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。

    2、目錄搜索引擎:目錄搜索引擎通過現(xiàn)有收錄的網(wǎng)站信息按目錄分類的網(wǎng)站鏈接列表匹配,將匹配結(jié)果返回給用戶。

    3、元搜索引擎:元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。

    全文搜索引擎的概念

    三、得到網(wǎng)站不同

    1、全文搜索引擎:全文搜索引擎得到的網(wǎng)站信息更及時(shí)。

    2、目錄搜索引擎:目錄搜索引擎得到的網(wǎng)站質(zhì)量更高。

    3、元搜索引擎:元搜索引擎得到的網(wǎng)站信息數(shù)量更多。

    二、搜索引擎分為哪幾類

    問題一:搜索引擎都有哪些分類? 【分類】

    1.全文索引

    全文搜索引擎是名副其實(shí)的搜索引擎,國外代表有Google,國內(nèi)則有著名的百度搜索。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。

    根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。

    2.目錄索引

    目錄索引雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞(Keywords)進(jìn)行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo!、新浪分類目錄搜索。

    3.元搜索引擎

    元搜索引擎(META Search Engine)接受用戶查詢請(qǐng)求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。

    其他非主流搜索引擎形式

    (1) *** 式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)用多個(gè)搜索引擎進(jìn)行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

    (2)門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。

    (3)免費(fèi)鏈接列表(Free For All Links,簡(jiǎn)稱FFA):一般只簡(jiǎn)單地滾動(dòng)鏈接條目,少部分有簡(jiǎn)單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。

    【工作原理】

    1、抓取網(wǎng)頁

    每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。

    2、處理網(wǎng)頁

    搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁、分析超鏈接、計(jì)算網(wǎng)頁的重要度。

    3、提供檢索服務(wù)

    用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會(huì)提供一段來自網(wǎng)頁的摘要以及其他信息。

    問題二:搜索引擎都有哪幾種類型 搜索引擎主要分類,及特點(diǎn):

    一、全文索引

    全文搜索引擎是目前廣泛應(yīng)用的主流搜索引擎,國外代表搜索是Google,國內(nèi)則有最大中文搜索百度。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。

    根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和360搜索就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。

    二、目錄索引

    目錄索引也稱為:分類檢索,是因特網(wǎng)上最早提供WWW資源查詢的服務(wù),主要通過搜集和整理因特網(wǎng)的資源,根據(jù)搜索到網(wǎng)頁的內(nèi)容,將其網(wǎng)址分配到相關(guān)分類主題目錄的不同層次的類目之下,形成像圖書館目錄一樣的分類樹形結(jié)構(gòu)索引。目錄索引無需輸入任何文字,只要根據(jù)網(wǎng)站提供的主題分類目錄,層層點(diǎn)擊進(jìn)入,便可查到所需的網(wǎng)絡(luò)信息資源。

    三、元搜索引擎

    元搜索引擎(META Search Engine)接受用戶查詢請(qǐng)求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。

    四、垂直搜索引擎

    垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網(wǎng)頁搜索引擎,垂直搜索專注于特定的搜索領(lǐng)域和搜索需求(例如:機(jī)票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。相比通用搜索動(dòng)輒數(shù)千臺(tái)檢索服務(wù)器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。

    五、 *** 式搜索引擎

    *** 式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)用多個(gè)搜索引擎進(jìn)行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

    六、門戶搜索引擎

    門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。

    七、免費(fèi)鏈接列表

    免費(fèi)鏈接列表(Free For All Links簡(jiǎn)稱FFA):一般只簡(jiǎn)單地滾動(dòng)鏈接條目,少部分有簡(jiǎn)單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。

    希望可以幫助到你~望采納哦~謝謝~ 看評(píng)論

    問題三:目前常用的搜索引擎分為哪兩類? 分為三類:全文搜索引擎(例如google)目錄搜索(163),元搜索引擎

    問題四:搜索引擎分幾種 可分為三種 搜索引擎分類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是名副其實(shí)的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)著名的有百度(Baidu)。它們都是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。 從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。 目錄索引 目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。 元搜索引擎(META Search Engine) 元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。 除上述三大類引擎外,還有以下幾種非主流形式: *** 式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區(qū)別在于不是同時(shí)調(diào)用多個(gè)引擎進(jìn)行搜索,而是由用戶從提供的4個(gè)引擎當(dāng)中選擇,因此叫它“ *** 式”搜索引擎更確切些。 門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務(wù),但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他引擎。 免費(fèi)鏈接列表(Free For All Links,簡(jiǎn)稱FFA):這類網(wǎng)站一般只簡(jiǎn)單地滾動(dòng)排列鏈接條目,少部分有簡(jiǎn)單的分類目錄,不過規(guī)模比起Yahoo等目錄索引來要小得多。 由于上述網(wǎng)站都為用戶提供搜索查詢服務(wù),為方便起見,我們通常將其統(tǒng)稱為搜索引擎。 搜索引擎基本工作原理 了解搜索引擎的工作原理對(duì)我們?nèi)粘K阉鲬?yīng)用和網(wǎng)站提交推廣都會(huì)有很大幫助。 全文搜索引擎 在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。 另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入......>>

    問題五:目前常用的搜索引擎分為哪兩類? 樓主!不是2類,是3類。1。全文搜索引擎(例如google)2。目錄搜索(163),3。元搜索引擎

    問題六:中國主要的搜索引擎有哪幾個(gè)? 百度(baidu)中文搜索引擎

    全球最大中文搜索引擎。提供網(wǎng)頁快照、網(wǎng)頁預(yù)覽/預(yù)覽全部網(wǎng)頁、相關(guān)搜索詞、錯(cuò)別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索、百度搜霸、搜索援助中心。

    北大天網(wǎng)中英文搜索引擎

    由北京大學(xué)開發(fā),簡(jiǎn)體中文、繁體中文和英文三個(gè)版本。提供全文檢索、新聞組檢索、FTP檢索(北京大學(xué)、中科院等FTP站點(diǎn))。目前大約收集了100萬個(gè)WWW頁面(國內(nèi))和14萬篇Newsgroup(新聞組)文章。支持簡(jiǎn)體中文、繁體中文、英文關(guān)鍵詞搜索,不支持?jǐn)?shù)字關(guān)鍵詞和URL名檢索。

    新浪搜索引擎

    互聯(lián)網(wǎng)上規(guī)模 最大的中文搜索引擎之一。設(shè)大類目錄18個(gè),子目1萬多個(gè),收錄網(wǎng)站20余萬。提供網(wǎng)站、中文網(wǎng)頁、英文網(wǎng)頁、新聞、漢英辭典、軟件、滬深行情、游戲等多種資源的查詢。

    雅虎中國搜索引擎

    Yahoo!是世界上最著名的目錄搜索引擎。雅虎中國于1999年9月正式開通,是雅虎在全球的第20個(gè)網(wǎng)站。Yahoo!目錄是一個(gè)Web資源的導(dǎo)航指南,包括14個(gè)主題大類的內(nèi)容。

    搜狐搜索引擎

    搜狐于1998年推出中國首家大型分類查詢搜索引擎,到現(xiàn)在已經(jīng)發(fā)展成為中國影響力最大的分類搜索引擎。每日頁面瀏覽量超過800萬,可以查找網(wǎng)站、網(wǎng)頁、新聞、網(wǎng)址、軟件、黃頁等信息。

    網(wǎng)易搜索引擎

    網(wǎng)易新一代開放式目錄管理系統(tǒng)(ODP)。擁有近萬名義務(wù)目錄管理員。為廣大網(wǎng)民創(chuàng)建了一個(gè)擁有超過一萬個(gè)類目,超過25萬條活躍站點(diǎn)信息,日增加新站點(diǎn)信息500~1000條,日訪問量超過500萬次的專業(yè)權(quán)威的目錄查詢體系。

    3721網(wǎng)絡(luò)實(shí)名/智能搜索

    3721公司提供的中文上網(wǎng)服務(wù)DD3721網(wǎng)絡(luò)實(shí)名,使用戶無須記憶復(fù)雜的網(wǎng)址,直接輸入中文名稱,即可直達(dá)網(wǎng)站。3721智能搜索系統(tǒng)不僅含有精確的網(wǎng)絡(luò)實(shí)名搜索結(jié)果,同時(shí)集成多家搜索引擎。

    360綜合搜索引擎

    問題七:常用搜索引擎按其工作方式可分為哪些 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

    你所說的兩種是不包括目錄索引,因?yàn)槟夸浰饕m然有搜索功能,但從嚴(yán)格意義上算不上是真正的搜索引擎,只是一個(gè)目錄列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。從這個(gè)角度說,搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種。

    問題八:搜索引擎可分為哪兩種類型,各有什么特點(diǎn) 與全文搜索引擎相比,目錄索引有許多不同之處。

    首先,搜索引擎屬于自動(dòng)網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。搜索引擎其次,搜索引擎收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多,有時(shí)即使登錄多次也不一定成功。尤其象Yahoo這樣的超級(jí)索引,登錄更是困難。

    此外,在登錄搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄(Directory)。

    最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動(dòng)提取的,所以從用戶的角度看,我們擁有更多的自 *** ;而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時(shí)對(duì)其進(jìn)行調(diào)整,當(dāng)然事先是不會(huì)和你商量的。

    目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。

    ――選自網(wǎng)頁

    問題九:搜索引擎按其工作原理分為哪幾類 搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

    你所說的兩種是不包括目錄索引,因?yàn)槟夸浰饕m然有搜索功能,但從嚴(yán)格意義上算不上是真正的搜索引擎,只是一個(gè)目錄列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。從這個(gè)角度說,搜索引擎按其工作方式分為全文搜索引擎和元搜索引擎兩種。

    問題十:常用的搜索引擎有哪些 國內(nèi),百度,360,搜狗,移動(dòng)端,除了上面三個(gè),還有神馬搜索;國際常用,Google,Yahoo,必應(yīng)

    三、全文搜索引擎特點(diǎn)是什么以及代表網(wǎng)站的名稱是什么

    就是以數(shù)據(jù)諸如文字,聲音,圖像等為主要內(nèi)容,以檢索文獻(xiàn)資料的內(nèi)容而不是外表特征的一種檢索技術(shù)·

    主要該系統(tǒng)有TRS系統(tǒng)·天宇系統(tǒng)·等

    與其他搜索引擎相比,全文搜索引擎的顯著特點(diǎn)是它能夠以文中任何一個(gè)有檢索意義的詞作為檢索入口,而且取得的檢索結(jié)果是原始文獻(xiàn),而不是文獻(xiàn)線索

    隨著計(jì)算機(jī)產(chǎn)業(yè)的發(fā)展,以計(jì)算機(jī)存儲(chǔ)設(shè)備為載體的電子信息愈來愈多,這些信息大致可分為兩類:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)指的是諸如企業(yè)財(cái)務(wù)帳目和生產(chǎn)數(shù)據(jù)、學(xué)生的分?jǐn)?shù)數(shù)據(jù)等等,非結(jié)構(gòu)化數(shù)據(jù)的則是一些文本數(shù)據(jù)、圖象聲音等多媒體數(shù)據(jù)等等。據(jù)統(tǒng)計(jì),非結(jié)構(gòu)化數(shù)據(jù)占有整個(gè)信息量的80%以上。對(duì)于結(jié)構(gòu)化數(shù)據(jù),用RDBMS(關(guān)系數(shù)據(jù)庫管理系統(tǒng))技術(shù)來管理是目前最好的一種方式。但是由于RDBMS自身底層結(jié)構(gòu)的緣故使得它管理大量非結(jié)構(gòu)化數(shù)據(jù)顯得有些先天不足,特別是查詢這些海量非結(jié)構(gòu)化數(shù)據(jù)的速度較慢。而通過全文檢索技術(shù)就能高效地管理這些非結(jié)構(gòu)化數(shù)據(jù)。

    經(jīng)過幾年的發(fā)展,全文檢索從最初的字符串匹配程序已經(jīng)演進(jìn)到能對(duì)超大文本、語音、圖像、活動(dòng)影像等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行綜合管理的大型軟件。由于內(nèi)涵和外延的深刻變化,全文檢索系統(tǒng)已成為新一代管理信息系統(tǒng)的代名詞,衡量全文檢索系統(tǒng)的基本指標(biāo)也逐漸形成規(guī)范。

    首先,我們關(guān)注的是查全率,即系統(tǒng)在進(jìn)行某一檢索時(shí),檢索出的相關(guān)資料量與系統(tǒng)資料庫中相關(guān)資料總量的比率。查準(zhǔn)率則是保證我們找到最有用資料的一個(gè)關(guān)鍵,是系統(tǒng)在進(jìn)行某一檢索時(shí),檢索出的有用資料數(shù)量與檢索出資料總量的比率。檢索速度或者說響應(yīng)時(shí)間是提高工作效率的保障,指的是從提交檢索課題到查出資料結(jié)果所需的時(shí)間。最基本的檢索速度是應(yīng)該達(dá)“千萬漢字,秒級(jí)響應(yīng)"。還有諸如收錄范圍(所查找的范圍)、用戶負(fù)擔(dān)(用戶在檢索過程中付出精力的總和)、輸出形式 (輸出信息表現(xiàn)形式)等指標(biāo)也是衡量全文檢索系統(tǒng)優(yōu)劣的要素。

    搜索引擎應(yīng)該是全文檢索技術(shù)最主要的一個(gè)應(yīng)用。目前,搜索引擎的使用已成為排在收發(fā)電子郵件之后的第二大互聯(lián)網(wǎng)應(yīng)用技術(shù)。搜索引擎起源于傳統(tǒng)的信息全文檢索理論,即計(jì)算機(jī)程序通過掃描每一篇文章中的每一個(gè)詞,建立以詞為單位的到排文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個(gè)檢索詞在一篇文章中出現(xiàn)的概率,對(duì)包含這些檢索詞的文章進(jìn)行排序,最后輸出排序的結(jié)果。全文檢索技術(shù)是搜索引擎的核心支撐技術(shù)。

    一個(gè)好的檢索引擎是一個(gè)理想站點(diǎn)的關(guān)鍵。很多人在訪問一個(gè)站點(diǎn)時(shí)喜歡使用站點(diǎn)檢索,站點(diǎn)檢索應(yīng)是分類目錄導(dǎo)航和全文檢索的完美結(jié)合,具體包括以下幾個(gè)方面:

    分類目錄導(dǎo)航的關(guān)鍵是檢索范圍,檢索范圍的限制能使得檢索結(jié)果不會(huì)太多、太濫;

    全文檢索對(duì)于站點(diǎn)檢索是必不可少的,在通常情況下能夠幫助人們很快地找到所要的網(wǎng)頁;

    有時(shí)利用分類目錄導(dǎo)航和全文檢索還很難定位到所要的信息,這時(shí)就要組合檢索輔助;

    必須有相關(guān)排序功能,因?yàn)楫?dāng)檢索結(jié)果太多時(shí),用戶不可能一一瀏覽,大多數(shù)用戶只瀏覽前面幾條,沒有相關(guān)排序,可能準(zhǔn)確的檢索結(jié)果排在后面,用戶不能瀏覽到,而排在前面的檢索結(jié)果卻相關(guān)性很少,造成用戶的錯(cuò)覺。

    此外,我們還要考慮HTML/XML的特殊性、支持大量并發(fā)用戶突發(fā)訪問、Web站點(diǎn)的動(dòng)態(tài)特性、要求索引維護(hù)效率很高等方面。

    目前的技術(shù)實(shí)現(xiàn)有Lucene,Solr,ElasticSearch等。全文檢索過程分為索引、搜索兩個(gè)過程:

    索引(Indexing)

    從關(guān)系數(shù)據(jù)庫中、互聯(lián)網(wǎng)上、文件系統(tǒng)采集源數(shù)據(jù)(要搜索的目標(biāo)信息),源數(shù)據(jù)的來源是非常廣泛的。

    將源數(shù)據(jù)采集到一個(gè)統(tǒng)一的地方,例如存儲(chǔ)系統(tǒng),要?jiǎng)?chuàng)建索引,將索引創(chuàng)建到一個(gè)索引庫(文件系統(tǒng))中,從源數(shù)據(jù)庫中提取關(guān)鍵信息,從關(guān)鍵信息中抽取一個(gè)一個(gè)詞,詞和源數(shù)據(jù)是有關(guān)聯(lián)的。也即創(chuàng)建索引時(shí),詞和源數(shù)據(jù)有關(guān)聯(lián),索引庫中記錄了這個(gè)關(guān)聯(lián),如果找到了詞就說明找到了源數(shù)據(jù)(http的網(wǎng)頁、電子書、新聞等……)。

    搜索(Search)

    用戶執(zhí)行搜索(全文檢索)編寫查詢關(guān)鍵字。

    從索引庫中搜索索引,根據(jù)查詢關(guān)鍵字搜索索引庫中的一個(gè)一個(gè)詞。

    展示搜索的結(jié)果。

    四、全文搜索引擎也叫什么搜索

    百度(Baidu)、 谷歌(Google)就是典型的全文搜索引擎。它們都是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。

    從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的baidu、google;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如國外的Lycos引擎。

    全文檢索是指計(jì)算機(jī)索引程序通過掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶的檢索方式。這個(gè)過程類似于通過字典中的檢索字表查字的過程。

    以上就是關(guān)于全文搜索引擎的概念相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    余下全文的朋友圈復(fù)制(朋友圈復(fù)制的文案如何全部顯示)

    論真酒是如何成為白月光的(全文be后成了所有人的白月光)

    陜西園林景觀設(shè)計(jì)實(shí)施辦法(陜西園林景觀設(shè)計(jì)實(shí)施辦法全文)

    新開的店怎么上高德地圖位置(新開的店鋪怎么上高德地圖)

    杭州有美術(shù)專業(yè)的大學(xué)排名(杭州有哪些美術(shù)專業(yè)的大學(xué))