正文

火車頭視頻采集規(guī)則（火車頭視頻采集規(guī)則最新）

發(fā)布時間：2023-06-14 21:13:58 稿源：創(chuàng)意嶺閱讀： 96

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于火車頭視頻采集規(guī)則的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，有小程序、在線網(wǎng)頁版、PC客戶端和批量生成器

官網(wǎng)：https://ai.de1919.com。

本文目錄:

火車頭采集規(guī)則，如果在列表頁里面有多個參數(shù)，應(yīng)該如何設(shè)置開始采集的地址，
火車頭如何采集還有縮略圖的文章呢
如何寫火車頭采集器的采集規(guī)則，采集頁面上圖片內(nèi)的文字？
飛飛火車頭采集器怎么寫發(fā)布規(guī)則
火車頭采集器怎么用？

火車頭視頻采集規(guī)則（火車頭視頻采集規(guī)則最新）

火車頭采集規(guī)則，如果在列表頁里面有多個參數(shù)，應(yīng)該如何設(shè)置開始采集的地址，

試了下，火車頭確實不行，因為它起始網(wǎng)址的參數(shù)就一個*，沒法對兩個動態(tài)的數(shù)據(jù)描述。
那不妨換個角度來思考，為什么不把這些網(wǎng)址變成1級網(wǎng)址讓火車頭以采集的方式把它采集出來呢。比如//i.html?_pgn=2&_skc=50&rt=nc把這個設(shè)置為起始網(wǎng)址（0級網(wǎng)址），那么你在設(shè)置采集網(wǎng)址的1級網(wǎng)址。而//i.html?_pgn=2&_skc=50&rt=nc這個頁面肯定會有下一頁，那么下一頁的網(wǎng)址應(yīng)該就是：//i.html?_pgn=3&_skc=100&rt=nc，這個頁面的下一頁的網(wǎng)址就是//i.html?_pgn=4&_skc=150&rt=nc，依次類推，層層采集，最終會把你要得網(wǎng)址采集完。那么可能會問起始網(wǎng)址就一個，怎么會采集到那么多的“下一頁”呢，這個可以用分頁的效果來實現(xiàn)，因為你設(shè)置好了分頁，火車頭就會自動跳到下一頁去采集，分頁的功能就把一個起始網(wǎng)址擴(kuò)展出N個起始網(wǎng)址了！

火車頭如何采集還有縮略圖的文章呢

1、首先在采集列表頁的源碼中將帶有縮略圖的那部分源碼復(fù)制下來，如圖：

2、查看網(wǎng)站的源碼，找到這行代碼，如圖：

3、打開火車頭，進(jìn)入采集網(wǎng)址規(guī)則—添加多級網(wǎng)址采集規(guī)則，選中手動填寫鏈接地址規(guī)則，并將第二步驟中選中的代碼粘貼進(jìn)去，如圖：

4、將代碼進(jìn)行如下修改：

5、改好后保存并進(jìn)行采集測試，如圖所示

6、然后再在采集內(nèi)容規(guī)則里進(jìn)行修改，選中“縮略圖”標(biāo)簽，打開，進(jìn)行內(nèi)容替換，如圖：

7、然后點擊文件下載，選中下載圖片，并填好縮略圖保存路徑及命名方式，如圖：

8、在“文件保存及部分高級設(shè)置”里設(shè)定縮略圖的保存盤符及其前綴，我設(shè)定為桌面，前綴為“./”，如圖：

9、我們保存后測試一下，一起順利，縮略圖順利采集下來了

追問

是最近版本的嗎？

如何寫火車頭采集器的采集規(guī)則，采集頁面上圖片內(nèi)的文字？

不得不說火車頭是有一定用處，但是個人覺得不怎么好用，光是寫那些采集規(guī)則，設(shè)定什么的就一大堆不明不白的東西。拿錢購買嘛，一開始那客服還很熱情的為你解答，一交完錢買下來了，寫規(guī)則，好了，有問題要找客服解決，結(jié)果一拖再拖，弄了一個多月還沒弄好，整個網(wǎng)站的工作進(jìn)程全拖慢了，還不如自己辛苦點自己手動寫文章，還采集啥啊~
言歸正傳，火車頭使用：新建站點—>新建任務(wù)—>填寫你要采集的網(wǎng)站文章列表—>點下面的開始測試網(wǎng)址—>如果有采集到很多文章，看各個地址相同部分（如system/2012/03/07），點返回修改，把system/2012/03/07這部分加到“文章內(nèi)容必須包含”那里，再測試一下，就可以采集到3月7日的文章地址了—>前面準(zhǔn)備好網(wǎng)址后接下來就是第二步的采集內(nèi)容規(guī)則了，點第二步，設(shè)定標(biāo)簽，一般采集包括標(biāo)題<title></title>、關(guān)鍵字<meta name=keyword...>、內(nèi)容<div>...</div>，這些設(shè)置從你要采集的網(wǎng)站代碼上可以找到相應(yīng)的——>采集頁面上的圖片，在第四步，“文件保存及高級設(shè)置”，選擇所有文件本地保存文件夾（這里是從頁面下載圖片存放的位置），然后下面有個FTP同步文件上傳的，填好服務(wù)器、用戶名、密碼什么的，文件上傳根目錄就是你網(wǎng)站服務(wù)器放置圖片的文件夾位置，你可以在服務(wù)器新建一個文件夾試試看，OK！到此為止，不過有一些網(wǎng)站寫了反采集代碼，有可能會被封IP，整體來說，個人不提倡使用火車頭采集器，還不如個人手動來得實在，就算一天少發(fā)點也行，只要保證每天更新量、偽原創(chuàng)和原創(chuàng)，一樣有很大效果。

火車頭視頻采集規(guī)則（火車頭視頻采集規(guī)則最新）

飛飛火車頭采集器怎么寫發(fā)布規(guī)則

1
首先講一講網(wǎng)站結(jié)構(gòu)，通常網(wǎng)站結(jié)構(gòu)為樹形結(jié)構(gòu)，一個網(wǎng)站主要包以下幾種頁面：首頁、欄目頁、文章頁，其結(jié)構(gòu)如下圖。
其次講一講火車頭采集原理，火車頭的運行需要一套規(guī)則來指定該如何采集所需數(shù)據(jù)，即需要編寫火車頭采集規(guī)則，編寫采集規(guī)則也是新手最頭痛的問題。
火車頭采集器通常通過網(wǎng)址抓取網(wǎng)站返回的源代碼，然后在源代碼中提取需要的信息。因此，采集數(shù)據(jù)需要先采集網(wǎng)址，然后再采集數(shù)據(jù)。
2
下面開始編寫采集規(guī)則：
運行LocoyPlatform.exe
3
在左側(cè)“任務(wù)列表樹”選擇一個分組點擊右鍵，選擇“新建任務(wù)”彈出新建任務(wù)對話框。填寫任務(wù)名，網(wǎng)站編碼一般選擇自動即可。
添加起始網(wǎng)址
填寫“第一步：采集網(wǎng)址規(guī)則”這里需要按照網(wǎng)站的樹形結(jié)構(gòu)逐級獲取下一級結(jié)構(gòu)的網(wǎng)址，直至獲取到內(nèi)容頁的網(wǎng)址。先填寫起始網(wǎng)址，通常為目標(biāo)站首頁地址。點擊“添加”，在單條網(wǎng)址處填上火車頭博客的首頁地址，然后依次點擊“添加” ->“完成”。
編寫“多級網(wǎng)址獲取”規(guī)則
這里需要先在起始地址頁面找到所有需要采集的欄目頁的代碼區(qū)域，先查看起始頁地址的源碼，找到如圖所示代碼區(qū)域：
點擊右側(cè)“添加”按鈕打開“添加多級網(wǎng)址采集規(guī)則”，選擇“從頁面自動分析得到地址鏈接”單選按鈕，在下面“從該選定區(qū)域中提取網(wǎng)址”，“從”（左側(cè)）文本框填上欄目地址代碼區(qū)域開始之前的標(biāo)志性代碼（要保證其在該頁的唯一性），“到”右側(cè)文本框填上欄目地址代碼區(qū)域結(jié)束之后的標(biāo)志性代碼，在“結(jié)果網(wǎng)址過濾”的“必須包含”和“不得包含”文本框填上相應(yīng)代碼，如果該區(qū)域沒有多余的鏈接不需要過濾，可以不填，這里的欄目頁網(wǎng)址必須包含“category-”。然后點擊“保存”返回。
現(xiàn)在需要獲取內(nèi)容頁的地址。先打開欄目頁查看源碼，查找內(nèi)容頁地址存在的區(qū)域及地址規(guī)律。按照上一步的方法先填寫內(nèi)容頁所在區(qū)域的起始和結(jié)束標(biāo)志性代碼，然后分析這個區(qū)域中包含的鏈接與我們說需要的內(nèi)容頁地址鏈接規(guī)律，添加過濾代碼。這里起始代碼為“”，結(jié)束代碼為“<div class="page" style="float:right">”過濾代碼為必須包含“read-”不得包含“#”。如圖：
需要注意的是這里文章比較多會有很多分頁，所以需要填寫“列表分頁獲取”規(guī)則。通常只需要指定分頁代碼的區(qū)域，如有必要可以填寫“組合生成列表頁分頁”規(guī)則。這里的列表分頁規(guī)則其實代碼為“<li class="pageNumber">”，結(jié)束代碼為“title="下一頁">”。如果勾選“自動識別分頁”的話，會自動提取a標(biāo)簽的href屬性，如果不勾選自動識別的話，需要填寫組合生成列表頁分頁”規(guī)則。
然后保存返回，可以通過“測試網(wǎng)址采集”來測試規(guī)則是否正確，不正確可以返回修改規(guī)則，正確的話可以開始編寫“第二步采集內(nèi)容規(guī)則”。
編寫“第二步采集內(nèi)容規(guī)則”
先打開內(nèi)容頁以及內(nèi)容頁的源碼，找到需要提取的信息的前后代碼特征。以提取標(biāo)題和內(nèi)容為例。首先復(fù)制文章標(biāo)題，然后在源碼中查看該標(biāo)題出現(xiàn)的幾處地方，找一處前后代碼在每一篇文章都一樣的地方，該例共出現(xiàn)了3處，第二處的代碼沒有其他干擾代碼。點擊“添加”，標(biāo)簽名填“標(biāo)題”，提取數(shù)據(jù)方式選擇前后截取，前后代碼分別為“<h1 class="ContentTitle"><strong>”和“</strong></h1>”。如果采集的內(nèi)容需要作進(jìn)一步處理（如替換刪除編碼轉(zhuǎn)換過濾html等），在下方“數(shù)據(jù)處理”點擊添加填寫相應(yīng)規(guī)則。
再添加一個標(biāo)簽，標(biāo)簽名為“內(nèi)容”，按照上述方法填寫內(nèi)容的前后代碼片段，需要注意的是，前后代碼片段最好不要出現(xiàn)不完整的標(biāo)簽（如：“<div class="Content-body"” 應(yīng)該寫作“<div class="Content-body">”，一個完整的標(biāo)簽應(yīng)該是以“<”開始，以“>”結(jié)束，如果<>之間的內(nèi)容在各個內(nèi)容頁有一部分不一樣，將不一樣的部分用（*）代替即可），否則提取的內(nèi)容會包含部分不完整的標(biāo)簽。通常正文包含的HTML會比較多，可以添加HTML過濾功能，建議僅保留段落（p）、圖片（img）、換行（br）等標(biāo)簽。
測試內(nèi)容采集規(guī)則
保存規(guī)則后返回采集內(nèi)容規(guī)則頁面，在右側(cè)“規(guī)則測試”的典型頁面文本框填上一個內(nèi)容頁的地址，然后點擊測試，如果下面顯示到的內(nèi)容符合預(yù)期說明可以了，如果未獲取到內(nèi)容或者獲取到內(nèi)容不正確，返回檢查并修改規(guī)則。
開始采集
選擇要采集的任務(wù)規(guī)則，勾選“采網(wǎng)址”和“采內(nèi)容”復(fù)選框，點擊工具欄“開始”按鈕。
后續(xù)工作
采集到的數(shù)據(jù)保存在數(shù)據(jù)庫，可以通過在任務(wù)名上點右鍵，選擇“打開DATA下任務(wù)文件夾”打開數(shù)據(jù)庫所在位置，該數(shù)據(jù)庫可以通過ACCESS打開和編輯。如果想要重新采集，需要通過右鍵選擇“清空該任務(wù)網(wǎng)址庫”和“清空任務(wù)所有采集數(shù)據(jù)”。

火車頭采集器怎么用？

軟件程序的獲取：

大家可以從百度中搜索“火車頭采集器”，并進(jìn)入對應(yīng)官方來獲取程序的最新版本下載地址。當(dāng)然也可以從小編所提供的網(wǎng)盤地址中獲取最新版本程序：

請點擊輸入圖片描述

安裝并運行“火車頭采集器”程序，在彈出的登陸界面中直接點擊“登陸”按鈕就可以以免費版身份登陸。

請點擊輸入圖片描述

在程序主界面中，點擊“新建”下拉箭頭，從中選擇“任務(wù)”項。

請點擊輸入圖片描述

在彈出的窗口中，輸入“任務(wù)名”，同時點擊“起始網(wǎng)址”欄目右側(cè)的“添加”按鈕。

請點擊輸入圖片描述

接下來就極為重要的一步，就是對要進(jìn)行采集的網(wǎng)站進(jìn)行分板，對所采取的網(wǎng)站中各片文章的URL進(jìn)行綜合分析并找出規(guī)律，最后按如圖進(jìn)行填寫。

請點擊輸入圖片描述