正文

關(guān)鍵詞每半小時(shí)抓取（關(guān)鍵詞時(shí)長）

發(fā)布時(shí)間：2023-03-21 02:43:20 稿源：創(chuàng)意嶺閱讀： 733 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于關(guān)鍵詞每半小時(shí)抓取的問題，以下是小編對(duì)此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、如何使用python根據(jù)關(guān)鍵詞抓取微博
2、如果在excel中的一列抓取關(guān)鍵字匯總
3、網(wǎng)站關(guān)鍵詞出現(xiàn)的頻率是怎么計(jì)算的?
4、微博爬蟲系列之關(guān)鍵詞及指定用戶博文爬取

關(guān)鍵詞每半小時(shí)抓?。P(guān)鍵詞時(shí)長）

一、如何使用python根據(jù)關(guān)鍵詞抓取微博

基本的套路就是利用微博賬號(hào)模擬登陸，這個(gè)過程比較復(fù)雜，因?yàn)槲⒉┯屑用芴幚恚扑]去github下載一個(gè)python模擬登陸新浪的源碼。

當(dāng)你通過模擬登陸進(jìn)入微博界面的時(shí)候，嘗試如何用python的模塊去提交query,然后通過beautifulsoup或者是httpparse來獲取內(nèi)容信息。當(dāng)然，自己學(xué)習(xí)正則表達(dá)式來獲取也是可以的。

二、如果在excel中的一列抓取關(guān)鍵字匯總

就是求B列出現(xiàn)江蘇或上海的個(gè)數(shù)吧，如果是，假設(shè)數(shù)據(jù)在B2：B10，公式可為

=SUM(COUNTIF(B2:B10,{"江蘇*","上海*"}))

如果對(duì)應(yīng)的A列有重名，要去重，或其它算法，請(qǐng)?jiān)僬f明。

三、網(wǎng)站關(guān)鍵詞出現(xiàn)的頻率是怎么計(jì)算的?

我可以很負(fù)責(zé)任的告訴你，關(guān)鍵詞密度不是最佳答案所說的！

關(guān)鍵詞密度是關(guān)鍵詞/頁面所有詞語是詞語不是字?jǐn)?shù)！

仔細(xì)想一下也可以知道了比如關(guān)鍵詞長度為3個(gè)字出現(xiàn)5次頁面只有這5個(gè)相同的關(guān)鍵詞頁面所有字3*5=15 關(guān)鍵詞出現(xiàn)5詞那頻率就是 5/15=33%了？但事實(shí)是100% 最佳答案那個(gè)是錯(cuò)誤的！

四、微博爬蟲系列之關(guān)鍵詞及指定用戶博文爬取

近期的一些微博爬蟲內(nèi)容，本篇主要將怎么根據(jù)關(guān)鍵詞或指定用戶進(jìn)行博文爬取。

準(zhǔn)備寫的內(nèi)容：

定向詞及指定用戶博文爬取方面，用的是微博網(wǎng)頁版（ https://weibo.cn ）。對(duì)于微博網(wǎng)頁版中相關(guān)博文的爬取，需要使用到 cookies 。這方面的爬取參考了github上的資源：

寫的時(shí)候發(fā)現(xiàn)網(wǎng)頁版的關(guān)鍵詞檢索接口已經(jīng)不見了···可能是微博刪除了網(wǎng)頁版的接口吧···之后再看看怎么在pc端爬取。

這里先介紹怎么指定用戶進(jìn)行博文爬取吧···

指定用戶的時(shí)候，需要有用戶的用戶id。通常用戶id是一串?dāng)?shù)字，也有一些賬號(hào)更改后是字符串，舉個(gè)例子，何同學(xué)跟央視新聞的微博：

在這里何同學(xué)的 uid = 6529876887 ，央視新聞的 uid = cctvxinwen 。當(dāng)然也可以獲取到央視新聞以數(shù)字存儲(chǔ)的id，之后再講怎么獲取，這里直接放出來就是 uid = 2656274875 ，點(diǎn)擊可以發(fā)現(xiàn)確實(shí)是央視新聞的微博 https://weibo.cn/2656274875

這個(gè)問題在爬取用戶博文方面沒有影響，不過在爬取用戶信息時(shí)會(huì)有影響，后面寫用戶信息爬取再說這個(gè)情況怎么解決。

下面以央視新聞為例看看怎么爬用戶的博文。

點(diǎn)擊進(jìn)入央視新聞的微博，可以看到這個(gè)賬號(hào)發(fā)布了很多很多微博，在網(wǎng)頁版觀看就會(huì)顯示很多頁，那么要爬取的時(shí)候就要先獲取他的頁數(shù)。

當(dāng)點(diǎn)擊第二頁時(shí)，會(huì)發(fā)現(xiàn) url 會(huì)變成 https://weibo.cn/cctvxinwen?page=2 。也就是說這個(gè)翻頁是以 page 這個(gè)字段進(jìn)行翻頁的，這就好辦很多了。

將 page 改成 1 可以發(fā)現(xiàn)網(wǎng)頁跳轉(zhuǎn)到所有博文的第1頁，接下來那我們就先獲取到所有的頁面url。

首先進(jìn)入 https://weibo.cn/cctvxinwen?page=1 ，打開開發(fā)者模式，在文件中找到自己的 cookies 。

在網(wǎng)頁開發(fā)者模式下，點(diǎn)開文件可以發(fā)現(xiàn)沒有json格式的數(shù)據(jù)輸出。因此這里不能直接通過解析json數(shù)據(jù)獲取到頁面數(shù)據(jù)。

這里就需要查看網(wǎng)頁返回的文本信息了。這里再定位具體信息時(shí)，我用的是 lxml 庫里的 etree 方法。

這里要查看具體要定位到哪里，可以在網(wǎng)頁上的源碼進(jìn)行定位，比如我們要定位到頁數(shù)，找到頁數(shù)所在的地方：

拿到用戶的所有博文網(wǎng)頁后，就可以進(jìn)行博文的爬取了。這里每一頁的數(shù)據(jù)是一樣的，所以直接用第一頁為例就可以了。同樣的將頁面數(shù)據(jù)爬下來：

還是在網(wǎng)頁上看，定位到某一條博文，可以看到源碼是這樣子的：

可以看到第1頁這里展示了11條博文（這個(gè)不一定），每條博文放在 div class="c" id="" 的控件里，這里的id是對(duì)應(yīng)的博文id，于是我們就可以拿到博文的控件：

選擇其中一個(gè)博文來看

這里我們可以看到要的信息全在這里了，接著就按著控件抓信息。這里拿其中一個(gè)節(jié)點(diǎn)為例。

首先獲取微博的url以及微博id，這個(gè)從上面看到，可以從點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論處的鏈接獲取，這里選擇最簡單的轉(zhuǎn)發(fā)鏈接，對(duì)應(yīng)的點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)也可以順便爬下來了：

接下來看下微博的創(chuàng)建時(shí)間，這里我們看到還有微博的來源，有一些可能會(huì)沒有這個(gè)信息：

接下來就是博文的主體了：

博文方面的內(nèi)容提取基本就是從github上搬過來的，對(duì)內(nèi)容部分字符串進(jìn)行了一些匹配清洗：

上面是比較簡單的博文情況，有一些可能有圖片、視頻、轉(zhuǎn)發(fā)等情況，這里直接放GitHub的做法，具體爬取方式是一樣的，定位控件，找信息：

到這里，指定用戶的博文爬取就結(jié)束了，主要還是參考了GitHub的大神~

以上就是關(guān)于關(guān)鍵詞每半小時(shí)抓取相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。