-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
爬蟲軟件分析關(guān)鍵詞(爬蟲程序 關(guān)鍵詞)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于爬蟲軟件分析關(guān)鍵詞的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、什么叫爬蟲技術(shù)?有什么作用
網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外,所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對(duì)于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對(duì)以后的抓取過程給出反饋和指導(dǎo)。
網(wǎng)絡(luò)爬蟲的具體作用是什么
說白了就是網(wǎng)絡(luò)黃牛利用爬蟲軟件24小時(shí)監(jiān)控某個(gè)系統(tǒng),比如說蘋果官網(wǎng)的維修預(yù)約就很難預(yù)約到,這時(shí)候就可以24小時(shí)監(jiān)控他們的官網(wǎng)一有預(yù)約號(hào)出來立刻就用軟件搶了,然后再賣出去。
python網(wǎng)絡(luò)爬蟲的作用
1、做為通用搜索引擎網(wǎng)頁收集器。
2、做垂直搜索引擎。
3、科學(xué)研究:在線人類行為,在線社群演化,人類動(dòng)力學(xué)研究,計(jì)量社會(huì)學(xué),復(fù)雜網(wǎng)絡(luò),數(shù)據(jù)挖掘,等領(lǐng)域的實(shí)證研究都需要大量數(shù)據(jù),網(wǎng)絡(luò)爬蟲是收集相關(guān)數(shù)據(jù)的利器。
二、好用的爬蟲抓取軟件有哪些?
可以用八爪魚采集器。
網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。
隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個(gè)輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:
(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通過搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。
(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。
(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。
(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。
三、如何用爬蟲抓取股市數(shù)據(jù)并生成分析報(bào)表
1. 關(guān)于數(shù)據(jù)采集
股票數(shù)據(jù)是一種標(biāo)準(zhǔn)化的結(jié)構(gòu)數(shù)據(jù),是可以通過API接口訪問的(不過一般要通過渠道,開放的API有一定的局限性)。也可以通過爬蟲軟件進(jìn)行采集,但是爬蟲軟件采集數(shù)據(jù)不能保證實(shí)時(shí)性,根據(jù)數(shù)據(jù)量和采集周期,可能要延遲幾十秒到幾分鐘不等。我們總結(jié)了一套專業(yè)的爬蟲技術(shù)解決方案(Ruby + Sidekiq)。能夠很快實(shí)現(xiàn)這個(gè)采集,也可以后臺(tái)可視化調(diào)度任務(wù)。
2. 關(guān)于展現(xiàn)
網(wǎng)絡(luò)股票數(shù)據(jù)的展現(xiàn),網(wǎng)頁端直接通過HTML5技術(shù)就已經(jīng)足夠,如果對(duì)界面要求高一點(diǎn),可以采用集成前端框架,如Bootstrap;如果針對(duì)移動(dòng)端開發(fā), 可以使用Ionic框架。
3. 關(guān)于觸發(fā)事件
如果是采用Ruby on Rails的開發(fā)框架的話,倒是很方便了,有如sidekiq, whenever這樣子的Gem直接實(shí)現(xiàn)任務(wù)管理和事件觸發(fā)。
四、數(shù)據(jù)爬蟲行為如何合規(guī)?
前言
由于網(wǎng)絡(luò)數(shù)據(jù)爬取行為具有高效檢索、批量復(fù)制且成本低廉的特征,現(xiàn)已成為許多企業(yè)獲取數(shù)據(jù)資源的方式。也正因如此,一旦爬取的數(shù)據(jù)設(shè)計(jì)他人權(quán)益時(shí),企業(yè)將面臨諸多法律風(fēng)險(xiǎn)。本文將從數(shù)據(jù)爬取行為的相關(guān)概述、數(shù)據(jù)爬取相關(guān)立法規(guī)定,結(jié)合數(shù)據(jù)爬取行為近期典型案例,探討數(shù)據(jù)爬取行為的合規(guī)要點(diǎn)。
一、數(shù)據(jù)爬取行為概述
數(shù)據(jù)爬取行為是指利用網(wǎng)絡(luò)爬蟲或者類似方式,根據(jù)所設(shè)定的關(guān)鍵詞、取樣對(duì)象等規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本,并對(duì)抓取結(jié)果進(jìn)行大規(guī)模復(fù)制的行為。
使用爬蟲爬取數(shù)據(jù)的過程當(dāng)中,能否把握合法邊界是關(guān)系企業(yè)生死存亡的問題。近些年大數(shù)據(jù)、人工智能的廣泛使用,對(duì)各種數(shù)據(jù)的剛性需求,使數(shù)據(jù)行業(yè)游走在“灰色邊緣”。面對(duì)網(wǎng)絡(luò)數(shù)據(jù)安全的“強(qiáng)監(jiān)管”態(tài)勢(shì),做好數(shù)據(jù)合規(guī)、數(shù)據(jù)風(fēng)控刻不容緩。當(dāng)前我國并沒有相關(guān)法律法規(guī)對(duì)數(shù)據(jù)爬取行為進(jìn)行專門規(guī)制,而是根據(jù)爬取數(shù)據(jù)的不同“質(zhì)量”,主要通過《中華人民共和國著作權(quán)法》(以下簡(jiǎn)稱“《著作權(quán)法》)、《中華人民共和國反不正當(dāng)競(jìng)爭(zhēng)法》(以下簡(jiǎn)稱“《反不正當(dāng)競(jìng)爭(zhēng)法》”)、《中華人民共和國刑法》(以下簡(jiǎn)稱“《刑法”》)等現(xiàn)有法律法規(guī)進(jìn)行規(guī)制。
二、數(shù)據(jù)爬取相關(guān)法律責(zé)任梳理
(一)承擔(dān)刑事責(zé)任
1、非法侵入計(jì)算機(jī)信息系統(tǒng)罪
《刑法》第285條第1款規(guī)定了“非法侵入計(jì)算機(jī)信息系統(tǒng)罪”,違反國家規(guī)定,侵入國家事務(wù)、國防建設(shè)、尖端科學(xué)技術(shù)領(lǐng)域的計(jì)算機(jī)信息系統(tǒng)的,處三年以下有期徒刑或者拘役。
典型案例:李某等非法侵入計(jì)算機(jī)信息系統(tǒng)罪(2018)川3424刑初169號(hào)
本案中,被告人李某使用“爬蟲”軟件,大量爬取全國各地及涼山州公安局交警支隊(duì)車管所公告的車牌放號(hào)信息,之后使用軟件采用多線程提交、批量刷單、驗(yàn)證碼自動(dòng)識(shí)別等方式,突破系統(tǒng)安全保護(hù)措施,將爬取的車牌號(hào)提交至“交通安全服務(wù)管理平臺(tái)”車輛報(bào)廢查詢系統(tǒng),進(jìn)行對(duì)比,并根據(jù)反饋情況自動(dòng)記錄未注冊(cè)車牌號(hào),建立全國未注冊(cè)車牌號(hào)數(shù)據(jù)庫。之后編寫客戶端查詢軟件,由李某通過QQ、淘寶、微信等方式,以300-3000元每月的價(jià)格,分省市販賣數(shù)據(jù)庫查閱權(quán)限。
法院認(rèn)為,被告人李文某為牟取私利,違法國家規(guī)定,侵入國家事務(wù)領(lǐng)域的計(jì)算機(jī)信息系統(tǒng),被告人的行為均已構(gòu)成非法侵入計(jì)算機(jī)信息系統(tǒng)罪。
2、非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪
《刑法》第285條第2款規(guī)定如下,違反國家規(guī)定,侵入前款規(guī)定以外的計(jì)算機(jī)信息系統(tǒng)或者采用其他技術(shù)手段,獲取該計(jì)算機(jī)信息系統(tǒng)中存儲(chǔ)、處理或者傳輸?shù)臄?shù)據(jù),或者對(duì)該計(jì)算機(jī)信息系統(tǒng)實(shí)施非法控制,情節(jié)嚴(yán)重的,處三年以下有期徒刑或者拘役,并處或者單處罰金;情節(jié)特別嚴(yán)重的,處三年以上七年以下有期徒刑,并處罰金。同時(shí),《最高人民法院、最高人民檢察院關(guān)于辦理危害計(jì)算機(jī)信息系統(tǒng)安全刑事案件應(yīng)用刑事案件應(yīng)用法律若干問題的解釋》第1條對(duì)“情節(jié)嚴(yán)重”作出了具體的規(guī)定:“非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)或者非法控制計(jì)算機(jī)信息系統(tǒng),具有下列情形之一的,應(yīng)當(dāng)認(rèn)定為刑法第二百八十五條第二款規(guī)定的“情節(jié)嚴(yán)重”:(一)獲取支付結(jié)算、證券交易、期貨交易等網(wǎng)絡(luò)金融服務(wù)的身份認(rèn)證信息十組以上的;(二)獲取第(一)項(xiàng)以外的身份認(rèn)證信息五百組以上的;(三)非法控制計(jì)算機(jī)信息系統(tǒng)二十臺(tái)以上的;(四)違法所得五千元以上或者造成經(jīng)濟(jì)損失一萬元以上的;(五)其他情節(jié)嚴(yán)重的情形?!?
典型案例:李某、王某等非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)、非法控制計(jì)算機(jī)系統(tǒng)案(2021)滬0104刑初148號(hào)
本案中,益采公司在未經(jīng)淘寶(中國)軟件有限公司授權(quán)許可的情況下,經(jīng)李某授意,益采公司部門負(fù)責(zé)人被告人王某、高某等人分工合作,以使用IP代理、“X-sign”簽名算法等手段突破、繞過淘寶公司的“反爬蟲”防護(hù)機(jī)制,再通過數(shù)據(jù)抓取程序大量非法抓取淘寶公司存儲(chǔ)的各主播在淘寶直播時(shí)的開播地址、銷售額、觀看PV、UV等數(shù)據(jù)。至案發(fā),益采公司整合非法獲取的數(shù)據(jù)后對(duì)外出售牟利,違法所得共計(jì)人民幣22萬余元。法院認(rèn)為被告人李某、王某、高某等人構(gòu)成非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪,分別判處有期徒刑二年六個(gè)月、一年三個(gè)月不等,并處罰金。
法院認(rèn)為,被告人李文某為牟取私利,違法國家規(guī)定,侵入國家事務(wù)領(lǐng)域的計(jì)算機(jī)信息系統(tǒng),被告人的行為均已構(gòu)成非法侵入計(jì)算機(jī)信息系統(tǒng)罪。
3、提供侵入、非法控制計(jì)算機(jī)信息系統(tǒng)程序、工具罪
《刑法》第285條第3款對(duì)該罪規(guī)定如下,提供專門用于侵入、非法控制計(jì)算機(jī)信息系統(tǒng)的程序、工具,或者明知他人實(shí)施侵入、非法控制計(jì)算機(jī)信息系統(tǒng)的違法犯罪行為而為其提供程序、工具,情節(jié)嚴(yán)重的,依照前款的規(guī)定處罰。《最高人民法院、最高人民檢察院關(guān)于辦理危害計(jì)算機(jī)信息系統(tǒng)安全刑事案件應(yīng)用刑事案件應(yīng)用法律若干問題的解釋》中還列舉了“具有避開或者突破計(jì)算機(jī)信息系統(tǒng)安全保護(hù)措施,未經(jīng)授權(quán)或者超越授權(quán)獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)的功能的”等類型的程序、工具。
典型案例:陳輝提供侵入、非法控制計(jì)算機(jī)信息系統(tǒng)程序、工具罪(2021)粵0115刑初5號(hào)
本案中,被告人陳輝為牟取非法利益,在本區(qū)編寫爬蟲軟件用于在浙江淘寶網(wǎng)絡(luò)有限公司旗下的大麥網(wǎng)平臺(tái)上搶票,并以人民幣1888元到6888元不等的價(jià)格向他人出售該軟件,非法獲利人民幣12萬余元。2019年7月11日,被告人陳輝被公安機(jī)關(guān)抓獲。經(jīng)鑒定,上述爬蟲軟件具有以非常規(guī)的方式構(gòu)造和發(fā)送網(wǎng)絡(luò)請(qǐng)求,模擬用戶在大麥網(wǎng)平臺(tái)手動(dòng)下單和購買商品的功能;具有以非常規(guī)手段模擬用戶識(shí)別和輸入圖形驗(yàn)證碼的功能,該功能可繞過大麥網(wǎng)平臺(tái)的人機(jī)識(shí)別驗(yàn)證機(jī)制,以非常規(guī)方式訪問大麥網(wǎng)平臺(tái)的資源。
本院認(rèn)為,被告人陳輝提供專門用于侵入、非法控制計(jì)算機(jī)信息系統(tǒng)程序、工具,情節(jié)特別嚴(yán)重,依法應(yīng)予懲處。
4、 侵犯公民個(gè)人信息罪
《刑法》第253條中規(guī)定了該罪,違反國家有關(guān)規(guī)定,向他人出售或者提供公民個(gè)人信息,情節(jié)嚴(yán)重的,處三年以下有期徒刑或者拘役,并處或者單處罰金;情節(jié)特別嚴(yán)重的,處三年以上七年以下有期徒刑,并處罰金。違反國家有關(guān)規(guī)定,將在履行職責(zé)或者提供服務(wù)過程中獲得的公民個(gè)人信息,出售或者提供給他人的,依照前款的規(guī)定從重處罰。竊取或者以其他方法非法獲取公民個(gè)人信息的,依照第一款的規(guī)定處罰。
典型案例:杭州魔蝎數(shù)據(jù) 科技 有限公司、周江翔、袁冬侵犯公民個(gè)人信息罪(2020)浙0106刑初437號(hào)
本案中,被告人周江翔系魔蝎公司法定代表人、總經(jīng)理,負(fù)責(zé)公司整體運(yùn)營(yíng),被告人袁冬系魔蝎公司技術(shù)總監(jiān),系技術(shù)負(fù)責(zé)人,負(fù)責(zé)相關(guān)程序設(shè)計(jì)。魔蝎公司主要與各網(wǎng)絡(luò)貸款公司、小型銀行進(jìn)行合作,為網(wǎng)絡(luò)貸款公司、銀行提供需要貸款的用戶的個(gè)人信息及多維度信用數(shù)據(jù),方式是魔蝎公司將其開發(fā)的前端插件嵌入上述網(wǎng)貸平臺(tái)A**中,在網(wǎng)貸平臺(tái)用戶使用網(wǎng)貸平臺(tái)的APP借款時(shí),貸款用戶需要在魔蝎公司提供的前端插件上,輸入其通訊運(yùn)營(yíng)商、社保、公積金、淘寶、京東、學(xué)信網(wǎng)、征信中心等網(wǎng)站的賬號(hào)、密碼,經(jīng)過貸款用戶授權(quán)后,魔蝎公司的爬蟲程序代替貸款用戶登錄上述網(wǎng)站,進(jìn)入其個(gè)人賬戶,利用各類爬蟲技術(shù),爬取(復(fù)制)上述企、事業(yè)單位網(wǎng)站上貸款用戶本人賬戶內(nèi)的通話記錄、社保、公積金等各類數(shù)據(jù)。
法院認(rèn)為,被告單位杭州魔蝎數(shù)據(jù) 科技 有限公司以其他方法非法獲取公民個(gè)人信息,情節(jié)特別嚴(yán)重,其行為已構(gòu)成侵犯公民個(gè)人信息罪。被告人周江翔、袁冬分別系對(duì)被告單位魔蝎公司侵犯公民個(gè)人信息行為直接負(fù)責(zé)的主管人員和其他直接責(zé)任人員,其行為均已構(gòu)成侵犯公民個(gè)人信息罪。
5、侵犯著作權(quán)罪
根據(jù)《刑法》第217條規(guī)定,以營(yíng)利為目的,有下列侵犯著作權(quán)或者與著作權(quán)有關(guān)的權(quán)利的情形之一,違法所得數(shù)額較大或者有其他嚴(yán)重情節(jié)的,處三年以下有期徒刑,并處或者單處罰金;違法所得數(shù)額巨大或者有其他特別嚴(yán)重情節(jié)的,處三年以上十年以下有期徒刑,并處罰金:(一)未經(jīng)著作權(quán)人許可,復(fù)制發(fā)行、通過信息網(wǎng)絡(luò)向公眾傳播其文字作品、音樂、美術(shù)、視聽作品、計(jì)算機(jī)軟件及法律、行政法規(guī)規(guī)定的其他作品的;(二)出版他人享有專有出版權(quán)的圖書的;(三)未經(jīng)錄音錄像制作者許可,復(fù)制發(fā)行、通過信息網(wǎng)絡(luò)向公眾傳播其制作的錄音錄像的;(四)未經(jīng)表演者許可,復(fù)制發(fā)行錄有其表演的錄音錄像制品,或者通過信息網(wǎng)絡(luò)向公眾傳播其表演的;(五)制作、出售假冒他人署名的美術(shù)作品的;(六)未經(jīng)著作權(quán)人或者與著作權(quán)有關(guān)的權(quán)利人許可,故意避開或者破壞權(quán)利人為其作品、錄音錄像制品等采取的保護(hù)著作權(quán)或者與著作權(quán)有關(guān)的權(quán)利的技術(shù)措施的。
典型案例:譚某某等侵犯著作權(quán)罪(2020)京0108刑初237號(hào)
本案中,被告鼎閱公司自2018年開始,在覃某某等12名被告人負(fù)責(zé)管理或參與運(yùn)營(yíng)下,未經(jīng)掌閱 科技 股份有限公司、北京幻想縱橫網(wǎng)絡(luò)技術(shù)有限公司等權(quán)利公司許可,利用網(wǎng)絡(luò)爬蟲技術(shù)爬取正版電子圖書后,在其推廣運(yùn)營(yíng)的“鴻雁傳書”“TXT全本免費(fèi)小說”等10余個(gè)App中展示,供他人訪問并下載閱讀,并通過廣告收入、付費(fèi)閱讀等方式進(jìn)行牟利。根據(jù)經(jīng)公安機(jī)關(guān)依法提取收集并經(jīng)勘驗(yàn)、檢查、鑒定的涉案侵權(quán)作品信息數(shù)據(jù)、賬戶交易明細(xì)、鑒定結(jié)論、廣告推廣協(xié)議等證據(jù),法院查明,涉案作品侵犯掌閱 科技 股份有限公司、北京幻想縱橫網(wǎng)絡(luò)技術(shù)有限公司享有獨(dú)家信息網(wǎng)絡(luò)傳播權(quán)的文字作品共計(jì)4603部,侵犯中文在線數(shù)字出版集團(tuán)股份有限公司享有獨(dú)家信息網(wǎng)絡(luò)傳播權(quán)的文字作品共計(jì)469部。
法院認(rèn)為,鼎閱公司、直接負(fù)責(zé)的主管人員覃某某等12名被告人以營(yíng)利為目的,未經(jīng)著作權(quán)人許可,復(fù)制發(fā)行他人享有著作權(quán)的文字作品,情節(jié)特別嚴(yán)重,其行為均已構(gòu)成侵犯著作權(quán)罪,應(yīng)予懲處。
(2) 構(gòu)成不正當(dāng)競(jìng)爭(zhēng)
我國《反不正當(dāng)競(jìng)爭(zhēng)法》第12條規(guī)定:“經(jīng)營(yíng)者利用網(wǎng)絡(luò)從事生產(chǎn)經(jīng)營(yíng)活動(dòng),應(yīng)當(dāng)遵守本法的各項(xiàng)規(guī)定。經(jīng)營(yíng)者不得利用技術(shù)手段,通過影響用戶選擇或者其他方式,實(shí)施下列妨礙、破壞其他經(jīng)營(yíng)者合法提供的網(wǎng)絡(luò)產(chǎn)品或者服務(wù)正常運(yùn)行的行為:(一)未經(jīng)其他經(jīng)營(yíng)者同意,在其合法提供的網(wǎng)絡(luò)產(chǎn)品或者服務(wù)中,插入鏈接、強(qiáng)制進(jìn)行目標(biāo)跳轉(zhuǎn);(二)誤導(dǎo)、欺騙、強(qiáng)迫用戶修改、關(guān)閉、卸載其他經(jīng)營(yíng)者合法提供的網(wǎng)絡(luò)產(chǎn)品或者服務(wù);(三)惡意對(duì)其他經(jīng)營(yíng)者合法提供的網(wǎng)絡(luò)產(chǎn)品或者服務(wù)實(shí)施不兼容;(四)其他妨礙、破壞其他經(jīng)營(yíng)者合法提供的網(wǎng)絡(luò)產(chǎn)品或者服務(wù)正常運(yùn)行的行為。
典型案例:深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司、騰訊 科技 (深圳)有限公司與被告某新媒體公司不正當(dāng)競(jìng)爭(zhēng)糾紛案
本案中,兩原告系微信公眾平臺(tái)的經(jīng)營(yíng)者和管理者,被告某新媒體公司系某網(wǎng)站經(jīng)營(yíng)者,利用爬蟲技術(shù)抓取微信公眾平臺(tái)文章等信息內(nèi)容數(shù)據(jù),并通過網(wǎng)站對(duì)外提供公眾號(hào)信息搜索、導(dǎo)航及排行等數(shù)據(jù)服務(wù)。原告訴稱,被告利用被控侵權(quán)產(chǎn)品,突破微信公眾平臺(tái)的技術(shù)措施進(jìn)行數(shù)據(jù)抓取,并進(jìn)行商業(yè)化利用,妨礙平臺(tái)正常運(yùn)行,構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。被告辯稱,爬取并提供公眾號(hào)數(shù)據(jù)服務(wù)的行為不構(gòu)成不正當(dāng)競(jìng)爭(zhēng),其爬取的文章并非騰訊公司的數(shù)據(jù),而是微信公眾號(hào)的用戶數(shù)據(jù),且其網(wǎng)站獲利較少。
法院認(rèn)為,被告違背誠實(shí)信用原則,擅自使用原告征得用戶同意、依法匯集且具有商業(yè)價(jià)值的數(shù)據(jù),并足以實(shí)質(zhì)性替代其他經(jīng)營(yíng)者提供的部分產(chǎn)品或服務(wù),損害公平競(jìng)爭(zhēng)的市場(chǎng)秩序,屬于《反不正當(dāng)競(jìng)爭(zhēng)法》第十二條第二款第四項(xiàng)所規(guī)定的妨礙、破壞其他經(jīng)營(yíng)者合法提供的網(wǎng)絡(luò)產(chǎn)品或者服務(wù)正常運(yùn)行的行為,構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。
(3) 行政責(zé)任
我國當(dāng)前關(guān)于爬蟲行為所應(yīng)承擔(dān)的行政責(zé)任主要規(guī)定在《網(wǎng)絡(luò)安全法》中,其中涉嫌違反第27條規(guī)定的:“任何個(gè)人和組織不得從事非法侵入他人網(wǎng)絡(luò)、干擾他人網(wǎng)絡(luò)正常功能、竊取網(wǎng)絡(luò)數(shù)據(jù)等危害網(wǎng)絡(luò)安全的活動(dòng);不得提供專門用于從事侵入網(wǎng)絡(luò)、干擾網(wǎng)絡(luò)正常功能及防護(hù)措施、竊取網(wǎng)絡(luò)數(shù)據(jù)等危害網(wǎng)絡(luò)安全活動(dòng)的程序、工具;明知他人從事危害網(wǎng)絡(luò)安全的活動(dòng)的,不得為其提供技術(shù)支持、廣告推廣、支付結(jié)算等幫助。”,需要承擔(dān)一定的行政責(zé)任。該法第63條對(duì)違反第27條還規(guī)定了具體的行政處罰措施,包括“沒收違法所得”“拘留”“罰款”等處罰。同時(shí),對(duì)違反27條規(guī)定受到處罰的相關(guān)人員也作出了任職限制規(guī)定。
此外,《數(shù)據(jù)安全管理辦法(征求意見稿)》第16條對(duì)爬蟲適用作出了限流規(guī)定:“網(wǎng)絡(luò)運(yùn)營(yíng)者采取自動(dòng)化手段訪問收集網(wǎng)站數(shù)據(jù),不得妨礙網(wǎng)站正常運(yùn)行;此類行為嚴(yán)重影響網(wǎng)站運(yùn)行,如自動(dòng)化訪問收集流量超過網(wǎng)站日均流量三分之一,網(wǎng)站要求停止自動(dòng)化訪問收集時(shí),應(yīng)當(dāng)停止。”同時(shí),第37條也規(guī)定了相應(yīng)的行政責(zé)任:網(wǎng)絡(luò)運(yùn)營(yíng)者違反相關(guān)規(guī)定的,由有關(guān)部門給予公開曝光、沒收違法所得、暫停相關(guān)業(yè)務(wù)、停業(yè)整頓、關(guān)閉網(wǎng)站、吊銷相關(guān)業(yè)務(wù)許可證或吊銷營(yíng)業(yè)執(zhí)照等處罰。
三、數(shù)據(jù)爬取行為的合規(guī)指引
(一)嚴(yán)格規(guī)范數(shù)據(jù)爬取行為
1、如果目標(biāo)網(wǎng)站有反爬取協(xié)議,應(yīng)嚴(yán)格遵守網(wǎng)站設(shè)置的 Robots協(xié)議。Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”,網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。該協(xié)議尊重信息提供者的意愿,并維護(hù)其隱私權(quán);保護(hù)其使用者的個(gè)人信息和隱私不被侵犯。Robots協(xié)議代表一種契約精神,互聯(lián)網(wǎng)企業(yè)只有遵守這一規(guī)則,才能保證網(wǎng)站及用戶的隱私數(shù)據(jù)不被侵犯。可以說,無論從保護(hù)網(wǎng)民隱私還是尊重版權(quán)內(nèi)容的角度,遵守robots協(xié)議都應(yīng)該是正規(guī)互聯(lián)網(wǎng)公司的默之舉,任何違反robots協(xié)議的行為都應(yīng)該為此付出代價(jià)。
2、合理限制抓取的內(nèi)容。在設(shè)置抓取策略時(shí),應(yīng)注意編碼禁止抓取視頻、音樂等可能構(gòu)成作品的、明確的著作權(quán)作品數(shù)據(jù),或者針對(duì)某些特定網(wǎng)站批量抓取其中的用戶生成內(nèi)容;在使用、傳播抓取到的信息時(shí),應(yīng)審查所抓取的內(nèi)容,如發(fā)現(xiàn)屬于用戶的個(gè)人信息、隱私或者他人的商業(yè)秘密的,應(yīng)及時(shí)停止并刪除。對(duì)于內(nèi)部系統(tǒng)數(shù)據(jù),嚴(yán)格禁止侵入。
3、爬取行為不應(yīng)妨礙網(wǎng)站的正常運(yùn)行。企業(yè)應(yīng)當(dāng)合理控制爬取的頻率,盡可能避免過于頻繁地抓取數(shù)據(jù),特別是如果超過了《數(shù)據(jù)安全管理辦法(征求意見稿)》明確規(guī)定的“自動(dòng)化訪問收集流量超過網(wǎng)站日均流量三分之一”的要求,就應(yīng)當(dāng)嚴(yán)格遵守網(wǎng)站的要求,及時(shí)停止數(shù)據(jù)抓取。
(二)爬取個(gè)人信息時(shí)恪守合法、正當(dāng)、必要原則
在我國,合法、正當(dāng)、必要原則散見于《消費(fèi)者權(quán)益保護(hù)法》、《網(wǎng)絡(luò)安全法》、《全國人大常委會(huì)關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》、《個(gè)人信息安全規(guī)范》等法律與規(guī)范之中。網(wǎng)絡(luò)經(jīng)營(yíng)者擬爬取用戶個(gè)人信息的,應(yīng)當(dāng)嚴(yán)格遵守上述法律法規(guī)的規(guī)定,以取得個(gè)人用戶的事前同意為原則,避免超出用戶的授權(quán)范圍爬取信息。同樣地,數(shù)據(jù)接受方也應(yīng)當(dāng)對(duì)以爬蟲方式獲取的他人信息進(jìn)行合法性審查,了解個(gè)人信息主體是否同意共享個(gè)人信息數(shù)據(jù)。
(三)爬取商業(yè)數(shù)據(jù)時(shí)謹(jǐn)防構(gòu)成不正當(dāng)競(jìng)爭(zhēng)
在數(shù)字內(nèi)容領(lǐng)域,數(shù)據(jù)是內(nèi)容產(chǎn)業(yè)的核心競(jìng)爭(zhēng)資源,內(nèi)容平臺(tái)經(jīng)過匯總分析處理后的數(shù)據(jù)往往具有極高的經(jīng)濟(jì)價(jià)值,因此非法爬取行為在某些具體應(yīng)用場(chǎng)景下會(huì)被認(rèn)定為構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。尤其是對(duì)于雙方商業(yè)模式相同或近似、獲取對(duì)方的信息會(huì)對(duì)對(duì)方造成直接損害的,企業(yè)應(yīng)重點(diǎn)予以防范。如果存在此種情形,則應(yīng)當(dāng)謹(jǐn)慎使用爬取獲取被爬取網(wǎng)站的數(shù)據(jù)。
四、結(jié)語
隨著大數(shù)據(jù)時(shí)代的來臨以及數(shù)字技術(shù)的蓬勃發(fā)展,數(shù)據(jù)的價(jià)值日益凸顯,部分企業(yè)通過數(shù)據(jù)爬取技術(shù)更加高效地獲取和深度地利用相關(guān)數(shù)據(jù),從而彌補(bǔ)企業(yè)自身數(shù)據(jù)不足的現(xiàn)狀,支撐企業(yè)的商業(yè)化發(fā)展。對(duì)于這些企業(yè)而言,“網(wǎng)絡(luò)爬蟲如何爬取信息數(shù)據(jù)才是合法的?”“爬取數(shù)據(jù)時(shí)如何做到合規(guī)?”是亟待解決的一大難題。作為法律工作者,應(yīng)當(dāng)從法律的專業(yè)角度給企業(yè)提供強(qiáng)有力的合規(guī)指引,為促進(jìn)高新技術(shù)企業(yè)的發(fā)展,進(jìn)而全面提升國家 科技 創(chuàng)新能力做出應(yīng)有的貢獻(xiàn)。
以上就是關(guān)于爬蟲軟件分析關(guān)鍵詞相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
關(guān)鍵詞檢索爬蟲(關(guān)鍵詞爬?。?/a>
數(shù)據(jù)抓取軟件(爬蟲數(shù)據(jù)抓取軟件)
網(wǎng)絡(luò)的特點(diǎn)(網(wǎng)絡(luò)的特點(diǎn)有哪些)
單元格里面增加篩選內(nèi)容(單元格里面增加篩選內(nèi)容怎么操作)