HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    網(wǎng)頁抓取算法(網(wǎng)頁抓取算法是什么)

    發(fā)布時間:2023-03-25 04:44:12     稿源: 創(chuàng)意嶺    閱讀: 632        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于網(wǎng)頁抓取算法的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀企業(yè),服務(wù)客戶遍布全國,網(wǎng)絡(luò)營銷相關(guān)業(yè)務(wù)請撥打175-8598-2043,或微信:1454722008

    本文目錄:

    網(wǎng)頁抓取算法(網(wǎng)頁抓取算法是什么)

    一、石油市場價格抓取算法

    由于網(wǎng)站上的石油市場價格歷史數(shù)據(jù)的時間粒度從年一直精確到日,所有的下載靠人工完成是很困難的,而且由于下載到本地之后的表格字段并不規(guī)范,所以必須要根據(jù)數(shù)據(jù)庫字段的要求對字符串和Excel表格操作,使之規(guī)范化后再入庫。其難點在于實現(xiàn)石油市場價格的自動抓取完成對數(shù)據(jù)源的自動下載,數(shù)據(jù)源的自動更新,與管理平臺的無縫鏈接,以及ActiveX 插件的制作。

    5.3.1.1 數(shù)據(jù)源的自動下載

    石油市場價格數(shù)據(jù)有3個數(shù)據(jù)源,包括美國能源部能源信息署(EIA)、《華爾街日報》(WJS)和中石油(CNPC)的數(shù)據(jù)。這些數(shù)據(jù)源皆為互聯(lián)網(wǎng)上的資源。針對3個不同的數(shù)據(jù)源的特點,采用遠程自動下載及規(guī)范化,以及基于正則表達式的網(wǎng)頁數(shù)據(jù)自動抓取兩種不同的技術(shù)完成。

    (1)遠程自動下載及規(guī)范化

    對于美國能源部網(wǎng)站的油價歷史數(shù)據(jù),通過設(shè)計自動下載引擎,完成對其歷史油價數(shù)據(jù)的自動遠程下載,按照指定路徑保存到本地,并將每次下載的結(jié)果保存到數(shù)據(jù)庫下載日志表;將下載下來的數(shù)據(jù)進行清洗、轉(zhuǎn)換并上載到中心數(shù)據(jù)庫。

    (2)基于正則表達式的網(wǎng)頁數(shù)據(jù)自動抓取技術(shù)

    由于大部分網(wǎng)頁數(shù)據(jù)并沒有提供下載的通道,而且油價數(shù)據(jù)同股價數(shù)據(jù)一樣更新頻率很高。因此需要對網(wǎng)站上的數(shù)據(jù)進行基于正則表達式網(wǎng)頁數(shù)據(jù)自動抓取。華爾街油價數(shù)據(jù)、美國能源部上的油價事件、中石油網(wǎng)頁上的油價數(shù)據(jù),均需要通過正則表達式的網(wǎng)頁自動抓取功能來實現(xiàn)。

    網(wǎng)頁抓取需要解決的問題:

    1)得到需要抓取的網(wǎng)頁的地址列表(URL);

    2)根據(jù)網(wǎng)頁的地址去請求,得到網(wǎng)頁的內(nèi)容;

    3)分析網(wǎng)頁(HTM L)的結(jié)構(gòu),并提取出需要的內(nèi)容,即使用網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)或元數(shù)據(jù)采集技術(shù)??梢允褂没谧址檎叶ㄎ缓突贒OM(Document Object Model)結(jié)構(gòu)的分析;數(shù)據(jù)抓取結(jié)構(gòu)體系,如圖5.27所示。

    圖5.27 B/S網(wǎng)頁事件抓取結(jié)構(gòu)體系

    正則表達式的網(wǎng)頁數(shù)據(jù)自動抓取技術(shù)涉及網(wǎng)頁源碼數(shù)據(jù)的本地化操作,裝載源碼數(shù)據(jù)控件的選擇,相關(guān)信息源碼的抓取,源代碼的去行操作,數(shù)據(jù)中含有超鏈接和字體變換的HTML標簽元素的去除,應(yīng)用零款斷言和截取子字符串等字符串函數(shù)的方法來抓取數(shù)據(jù)以及數(shù)據(jù)入庫這些操作(圖5.28)。

    圖5.28 基于正則表達式的網(wǎng)頁信息抓取過程

    5.3.1.2 數(shù)據(jù)源的自動更新

    當(dāng)完成對歷史數(shù)據(jù)的初始化之后,需要設(shè)計監(jiān)控引擎,監(jiān)控網(wǎng)站數(shù)據(jù)源的更新情況,以決策是否執(zhí)行增量下載任務(wù)。其監(jiān)控引擎采用實時監(jiān)控技術(shù)以及周期性檢測技術(shù)。當(dāng)執(zhí)行增量下載任務(wù)之后,需要對下載數(shù)據(jù)的有效性和完整性進行檢查,指定的數(shù)據(jù)源要定格式、定期進行更新。數(shù)據(jù)源的自動更新,主要依據(jù)站點在對數(shù)據(jù)更新之后系統(tǒng)能及時發(fā)現(xiàn)并自動快速地獲取更新。從站點上獲取更新的手段,涉及數(shù)據(jù)更新后的更新超鏈接、按鈕變化后的觸發(fā)網(wǎng)址的變動,分析網(wǎng)址來獲得更新等,如:《華爾街日報》的期貨油價就是按照將日期寫進網(wǎng)址來制作更新的;若是周末或是節(jié)假日期間網(wǎng)址同樣存在只是網(wǎng)頁上無相關(guān)內(nèi)容,于是便要考慮此次更新獲得的數(shù)據(jù)是否有效和存在;另外在處理如AJAX 等網(wǎng)址不變的網(wǎng)絡(luò)站點或者站點的更新不能從網(wǎng)址上得到解釋時,使用針對網(wǎng)頁的高級字符串操作來獲取更新,前述的正則表達式便是最有效的方法之一。

    5.3.1.3 與管理平臺的無縫鏈接

    管理平臺的功能是要使下載、更新的多個任務(wù)按照程式的設(shè)計,分配到計算機的幾個線程中,通過對線程的調(diào)度,達到自動下載和更新的有效管理。為此需要設(shè)計審核功能、日志功能、重試次數(shù)的閾值,以及開啟多個Excel進程的功能。通過審核功能,可以查明自動下載過程中的異常,便于進行人工干預(yù);通過日志功能,可以幫助我們依據(jù)日志對任務(wù)執(zhí)行中的錯誤進行追蹤和對出錯原因進行判斷;通過設(shè)置重試次數(shù)閾值,可以實現(xiàn)任務(wù)執(zhí)行失敗后重試;通過開啟多個Excel進程的功能,可以實現(xiàn)EIA的Excel數(shù)據(jù)自動讀取和轉(zhuǎn)換。

    5.3.1.4 預(yù)測程序ActiveX插件的制作

    由于油價預(yù)測程序是基于C/S架構(gòu)開發(fā),要將程序發(fā)布到B/S架構(gòu)必須使用插件技術(shù)從服務(wù)器端向客戶端安裝預(yù)測程序的核心部件,以達到對油價模型更新而不用再單獨編寫程序的目的,這樣就保證了程序的完整性和解決方案之間的良好銜接。

    創(chuàng)建ActiveX插件的過程,必須讓系統(tǒng)提供一個接口使得插件能夠完整地從后臺鏈接到前臺。因為工程無法生成tlb文件,沒有tlb文件也就意味著注冊失敗,以及dll文件或ActiveX 控件在客戶端無法使用。創(chuàng)建的類就是通過代碼的方式將dll文件在客戶端注冊,生成tlb文件,使得.exe程序能夠在B/S體系下進行操作。

    二、搜索引擎的工作過程分為哪幾個階段

    搜索引擎的整個工作過程視為三個部分:蜘蛛在互聯(lián)網(wǎng)上爬行和抓取網(wǎng)頁信息,并存入原始網(wǎng)頁數(shù)據(jù)庫;對原始網(wǎng)頁數(shù)據(jù)庫中的信息進行提取和組織,并建立索引庫;根據(jù)用戶輸入的關(guān)鍵詞,快速找到相關(guān)文檔,并對找到的結(jié)果進行排序,并將查詢結(jié)果返回給用戶。

    1、網(wǎng)頁抓取

    Spider每遇到一個新文檔,都要搜索其頁面的鏈接網(wǎng)頁。搜索引擎蜘蛛訪問web頁面的過程類似普通用戶使用瀏覽器訪問其頁面,即B/S模式。引擎蜘蛛先向頁面提出訪問請求,服務(wù)器接受其訪問請求并返回HTML代碼后,把獲取的HTML代碼存入原始頁面數(shù)據(jù)庫。

    2、預(yù)處理,建立索引

    為了便于用戶在數(shù)萬億級別以上的原始網(wǎng)頁數(shù)據(jù)庫中快速便捷地找到搜索結(jié)果,搜索引擎必須將spider抓取的原始web頁面做預(yù)處理。網(wǎng)頁預(yù)處理最主要過程是為網(wǎng)頁建立全文索引,之后開始分析網(wǎng)頁,最后建立倒排文件(也稱反向索引)。

    3、查詢服務(wù)

    在搜索引擎界面輸入關(guān)鍵詞,點擊“搜索”按鈕之后,搜索引擎程序開始對搜索詞進行以下處理:分詞處理、根據(jù)情況對整合搜索是否需要啟動進行判斷、找出錯別字和拼寫中出現(xiàn)的錯誤、把停止詞去掉。接著搜索引擎程序便把包含搜索詞的相關(guān)網(wǎng)頁從索引數(shù)據(jù)庫中找出,而且對網(wǎng)頁進行排序,最后按照一定格式返回到“搜索”頁面。

    擴展資料

    在信息抓取階段搜索引擎掌握的信息往往是局部的,因而為搜索引擎設(shè)計一個好的抓取優(yōu)先級策略并不是一件容易的事情,這里說的是一個深度抓取的優(yōu)先策略。深度優(yōu)先抓取它是以抓取到連接結(jié)構(gòu)關(guān)系中的所有內(nèi)容為主要目的的,具體實現(xiàn)方式是沿著樹形的深度遍歷樹的節(jié)點,盡可能深的搜索樹的分支,如果發(fā)現(xiàn)目標,則算法中止。

    深度優(yōu)先抓取過程中,抓取程序從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路最低端之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。

    參考資料來源:百度百科-搜索引擎

    參考資料來源:百度百科-搜索引擎技術(shù)

    三、使用phantomjs進行網(wǎng)頁抓取,怎么獲得div中的文本

    如果要實現(xiàn)Taste算法,必備的條件是: 1) JDK,使用1.6版本。需要說明一下,因為要基于Eclipse構(gòu)建,所以在設(shè)置path的值之前要先定義JAVA_HOME變量。 2) Maven,使用2.0.11版本或以上。在eclipse上安裝maven插件—m2eclipse

    四、pagerrank算法有何應(yīng)用

    .017 基于中心性和PageRank的網(wǎng)頁綜合評分方法 (1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,四川成都610031;2.成都市公安局科技處,四川成都610017;3.西南財經(jīng)大學(xué)經(jīng)濟信息工程學(xué)院,四川成都610074) 摘要:為準確、高效地對網(wǎng)頁進行評分,提出了一種基于中心性(結(jié)點度、居間度和緊密度)和PageRank算法 的網(wǎng)頁評分方法CentralRank.它采用PageRank算法計算網(wǎng)頁分數(shù),借助中心性度量的方法計算頁面在Web社會 網(wǎng)絡(luò)中的重要性.為了驗證CentralRank的性能優(yōu)勢,設(shè)計了一個網(wǎng)頁抓取器,可利用該抓取器自動、準確地下載 網(wǎng)頁信息.該網(wǎng)頁抓取器集成了網(wǎng)絡(luò)信息采集、頁面內(nèi)容分析和頁面消重3項技術(shù).基于大量真實數(shù)據(jù)的實驗結(jié) 果表明:CentralRank在保證網(wǎng)頁評分時間性能的前提下,比單純基于中心性的網(wǎng)頁評分算法和PageRank算法更 準確、有效,預(yù)測準確性分別提高約14.2%和7.5%. 關(guān)鍵詞:社會網(wǎng)絡(luò)分析;Web社會網(wǎng)絡(luò);中心性;PageRank算法;網(wǎng)頁評分 中圖分類號:TP311.13 文獻標志碼:A Hybrid Page Scoring Algorithm Based PageRankqtAO Shaojiel,PENG Jin92,H Tianruil,LI Iton91,12 Taiyon93,WANG Cha01 (1.School InformationScience Technology,SouthwestJiaotong University,Chengdu 610031,China; 2.Department Technology,ChengduMunicipal Public Security Bureau,Chengdu 610017,China; 3.School EconomicInformation Engineering,soutllwtem University Economics,Chengdu610074, China) Abst豫ct:In order scor

    以上就是關(guān)于網(wǎng)頁抓取算法相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    谷歌瀏覽器網(wǎng)頁版入口手機版(谷歌瀏覽器官網(wǎng)入口網(wǎng)頁版)

    抖音網(wǎng)頁版在線使用(抖音網(wǎng)頁版入口免登錄)

    小紅書官網(wǎng)網(wǎng)頁版登錄(小紅書網(wǎng)頁版入口)

    抖一抖運動視頻(抖動運動視頻)

    景觀設(shè)計作品賞析模板(景觀設(shè)計作品案例分析)