HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    抓取文本高頻詞

    發(fā)布時(shí)間:2023-04-14 04:27:26     稿源: 創(chuàng)意嶺    閱讀: 131        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于抓取文本高頻詞的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    抓取文本高頻詞

    一、python 提取有關(guān)鍵詞的句子怎么做

    高頻詞提取:

    # !/usr/bin/python3

    # coding:utf-8

    import jieba.analyse

    jieba.load_userdict('dict.txt') # dict.txt自定義詞典

    content = open('kw.txt', 'rb').read()

    tags = jieba.analyse.extract_tags(content, topK=10) # topK 為高頻詞數(shù)量

    print("\n".join(tags))

    二、用Python實(shí)現(xiàn)小說里的高頻詞統(tǒng)計(jì)并顯示

    用jieba做分詞,用wordcloud包做詞云就可以了

    # 讀取文件內(nèi)容

    file = 'd:/艾薩克·阿西莫夫/奇妙的航程.TXT'

    f = open(file, 'r', encoding='gbk')

    text = f.read()

    f.close()

    # 使用jieba分詞,因?yàn)閣ordcloud是以空格識(shí)別單詞邊界的

    import jieba

    text = ' '.join(jieba.cut(text))

    # 掩碼圖片,單色圖就好

    from scipy.misc import imread

    color_mask = imread('D:/Pictures/7218.png')

    # 建立詞云對(duì)象,因?yàn)槭侵形?指定一個(gè)中文字體,不然可能會(huì)亂碼

    # WordCloud的參數(shù)可以控制很多內(nèi)容,請(qǐng)自行閱讀包的文檔

    import wordcloud

    w = wordcloud.WordCloud(font_path='C:/Windows/Fonts/msyh.ttc',

                            max_words=100,

                            mask=color_mask)

    # 載入以空格分詞的字符串

    w.generate(text)

    # 生成圖片

    w.to_file('d:/img1.png')

    抓取文本高頻詞

    三、“關(guān)鍵詞”提取都有哪些方案?

    僅從詞語(yǔ)角度分析,1.2句banana是重復(fù)出現(xiàn)的,3.4句kitten是重復(fù)出現(xiàn)的。但其實(shí)可以發(fā)現(xiàn)1.2句主要跟食物有關(guān),3.4句主要跟動(dòng)物有關(guān),而food、animal兩個(gè)詞在四句話里均未出現(xiàn),有沒有可能判斷出四句話中所包含的兩個(gè)主題呢,或者當(dāng)兩篇文章共有的高頻詞很少,如一篇講banana,一篇講orange,是否可以判斷兩篇文章都包含food這個(gè)主題呢,如何生成主題、如何分析文章的主題,這就是topic-model所研究的內(nèi)容。對(duì)文本進(jìn)行LSA(隱形語(yǔ)義分析)。在直接對(duì)詞頻進(jìn)行分析的研究中,可以認(rèn)為通過詞語(yǔ)來描述文章,即一層的傳遞關(guān)系。而topic-model則認(rèn)為文章是由主題組成,文章中的詞,是以一定概率從主題中選取的。不同的主題下,詞語(yǔ)出現(xiàn)的概率分布是不同的。比如”魚雷“一詞,在”軍事“主題下出現(xiàn)的概率遠(yuǎn)大于在”食品”主題下出現(xiàn)的概率。即topic-model認(rèn)為文檔和詞語(yǔ)之間還有一層關(guān)系。首先假設(shè)每篇文章只有一個(gè)主題z,則對(duì)于文章中的詞w,是根據(jù)在z主題下的概率分布p(w|z)生成的。則在已經(jīng)選定主題的前提下,整篇文檔產(chǎn)生的概率是而這種對(duì)每篇文章只有一個(gè)主題的假設(shè)顯然是不合理的,事實(shí)上每篇文章可能有多個(gè)主題,即主題的選擇也是服從某概率分布p(t)的因此根據(jù)LDA模型,所有變量的聯(lián)合分布為表示topic下詞的分布,表示文檔下topic的分布。是第m個(gè)文檔的單詞總數(shù)。和表示詞語(yǔ)和topic的概率分布先驗(yàn)參數(shù)。而學(xué)習(xí)LDA的過程,就是通過觀察到的文檔集合,學(xué)習(xí)的過程。

    抓取文本高頻詞

    四、統(tǒng)計(jì)高頻詞的軟件有哪些?

    分析軟件有Excel、SPSS、MATLAB、 SAS、Finereport等

    其中Excel我就不多說了相信大家都懂。

    SPSS是世界上最早采用圖形菜單驅(qū)動(dòng)界面的統(tǒng)計(jì)軟件它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來。SPSS采用類似EXCEL表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便的從其他數(shù)據(jù)庫(kù)中讀入數(shù)據(jù)。其統(tǒng)計(jì)過程包括了常用的、較為成熟的統(tǒng)計(jì)過程,完全可以滿足大部分的工作需要。

    MATLAB是美國(guó)MathWorks公司出品的商業(yè)數(shù)學(xué)軟件,用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)技術(shù)計(jì)算語(yǔ)言和交互式環(huán)境使用的。

    其優(yōu)點(diǎn)如下:

    1、高效的數(shù)值計(jì)算及符號(hào)計(jì)算功能,能使用戶從繁雜的數(shù)學(xué)運(yùn)算分析中解脫出來;

    2、 具有完備的圖形處理功能,實(shí)現(xiàn)計(jì)算結(jié)果和編程的可視化;

    3、友好的用戶界面及接近數(shù)學(xué)表達(dá)式的自然化語(yǔ)言,使學(xué)者易于學(xué)習(xí)和掌握;

    4、功能豐富的應(yīng)用工具箱(如信號(hào)處理工具箱、通信工具箱等) ,為用戶提供了大量方便實(shí)用的處理工具。

    但是這款軟件的使用難度較大,非專業(yè)人士不推薦使用。

    SAS是把數(shù)據(jù)存取,管理,分析和展現(xiàn)有機(jī)地融為一體。其功能非常強(qiáng)大統(tǒng)計(jì)方法齊,全,新。它由數(shù)十個(gè)專用模塊構(gòu)成,功能包括數(shù)據(jù)訪問、數(shù)據(jù)儲(chǔ)存及管理、應(yīng)用開發(fā)、圖形處理、數(shù)據(jù)分析、報(bào)告編制、運(yùn)籌學(xué)方法、計(jì)量經(jīng)濟(jì)學(xué)與預(yù)測(cè)等。SAS系統(tǒng)基本上可以分為四大部分:SAS數(shù)據(jù)庫(kù)部分;SAS分析核心;SAS開發(fā)呈現(xiàn)工具;SAS對(duì)分布處理模式的支持及其數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)。不過這款軟件的使用需要一定的專業(yè)知識(shí),非專業(yè)人士不推薦使用。

    Finereport類EXCEL設(shè)計(jì)模式,EXCEL+綁定數(shù)據(jù)列”形式持多SHEET和跨SHEET計(jì)算,完美兼容EXCEL公式,用戶可以所見即所得的設(shè)計(jì)出任意復(fù)雜的表樣,輕松實(shí)現(xiàn)中國(guó)式復(fù)雜報(bào)表。它的功能也是非常的豐富,比如說 數(shù)據(jù)支持與整合、聚合報(bào)表、數(shù)據(jù)地圖、Flash打印、交互分析等。

    以上就是關(guān)于抓取文本高頻詞相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    抖音獲客軟件(抖音精準(zhǔn)客戶抓取軟件)

    怎么抓取網(wǎng)頁(yè)視頻(怎么抓取網(wǎng)頁(yè)視頻鏈接)

    百度蜘蛛抓取后多久收錄(百度蜘蛛抓取時(shí)間)

    土左旗廣場(chǎng)景觀設(shè)計(jì)(土左旗景區(qū))

    手機(jī)版冰雪單職業(yè)傳奇(手機(jī)版冰雪單職業(yè)傳奇有幾個(gè)平臺(tái))