正文

開源chatbot（開源chat）

發(fā)布時間：2023-03-13 06:40:47 稿源：創(chuàng)意嶺閱讀： 107 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于開源chatbot的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國內(nèi)免費(fèi)在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準(zhǔn)，寫出的就越詳細(xì)，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、常見的RPA工具有哪些?
2、專訪小源科技CEO段雨洛：場景決定5G消息成敗
3、如何利用深度學(xué)習(xí)技術(shù)訓(xùn)練聊天機(jī)器人語言模型
4、如何為python聊天機(jī)器人設(shè)計頁面

開源chatbot（開源chat）

一、常見的RPA工具有哪些?

1、UiPath

開源chatbot（開源chat）

UiPath是我在與不同咨詢公司以及同行交流中知名度最高的。

有無限期的個人免費(fèi)版本，和60天企業(yè)免費(fèi)試用版本。

免費(fèi)的線上課程，互動性強(qiáng)。有視頻，講義，練習(xí)題和答案，學(xué)完每一課有考試。不僅針對想成為RPA developer的人群有設(shè)計對應(yīng)的課程，如果想做RPA項(xiàng)目經(jīng)理，RPA分析學(xué)完之后拿到證書。

完整的生態(tài)系統(tǒng)，有自己的論壇供大家提問交流，有其他人或者團(tuán)隊(duì)已經(jīng)開發(fā)好的代碼分享。平臺還提供完整的數(shù)據(jù)表提供KPI和一些關(guān)鍵的metrics。支持用戶提交任務(wù)給RPA組評估其自動化的可行性。

2、Automation Anywhere (AA）

開源chatbot（開源chat）

和UiPath是勁敵。兩者是在RPA領(lǐng)域里占市場份額最大的商業(yè)化公司。

提供無限期的個人免費(fèi)試用版本。

對于小型企業(yè)來說，基礎(chǔ)配置的價格比UiPath的同類型要友好很多。

提供軟件學(xué)習(xí)的課程。

3. TagUI

開源chatbot（開源chat）

免費(fèi)的開源工具。

適用于Windows，macOS 和 Linux。支持網(wǎng)頁，鼠標(biāo)/鍵盤，OCR，圖像識別的自動化。詳細(xì)的關(guān)于TagUI介紹請點(diǎn)用戶指南。

可通過Python API來使用TagUI。

可以通過API/Python/R來與不同的深度學(xué)習(xí)模型結(jié)合！聊過的Data Scientist當(dāng)中就有人在進(jìn)行這方面的實(shí)操。

4. Olive

開源chatbot（開源chat）

這家公司是專門針對醫(yī)療行業(yè)提供RPA服務(wù)。其商業(yè)模式是給在醫(yī)療行業(yè)中的企業(yè)或醫(yī)院安裝他們的bot然后我們通過發(fā)放固定工資的形式支付這些bots所提供的服務(wù)。所有的維護(hù)費(fèi)管理費(fèi)均包括在了“工資”里。也就是現(xiàn)在逐漸流行起來的AI-as-a-Service(AIaaS) model。

5. Microsoft Power Automate

開源chatbot（開源chat）

對于使用Microsoft 365一系列辦公產(chǎn)品的企業(yè)來說無疑是一大利器。操作十分友好。有許多模板可以直接使用。SharePoint里面的approval process就是運(yùn)用Power Automate實(shí)行的。

從設(shè)置郵件提醒到把郵件內(nèi)容存到Excel表格與SharePoint同步等都可以創(chuàng)建流程來實(shí)行。目前正在嘗試把一些人工進(jìn)行的辦公流程轉(zhuǎn)為RPA。價格相對于前面一些列舉的收費(fèi)產(chǎn)品來說要親民許多。

二、專訪小源科技CEO段雨洛：場景決定5G消息成敗

10月14日，2020年中國國際信息通信展覽會5G消息生態(tài)發(fā)展論壇將在北京國家會議中心隆重召開。作為5G消息深耕者，小源科技受邀參加論壇。距離論壇召開僅剩3天時間，通信世界全媒體特別專訪了小源科技創(chuàng)始人/CEO段雨洛，聽聽小源科技是如何為5G消息落地添磚加瓦。

自2020年4月8日三大運(yùn)營商發(fā)布《5G消息白皮書》，5G消息就成為了行業(yè)熱議的話題。5G“新基建”加速，5G消息作為首個大規(guī)模落地的5G應(yīng)用，具有巨大的企業(yè)服務(wù)應(yīng)用前景。一條更加寬闊的通信賽道由此誕生。

“藍(lán)?！笔袌?5G消息成大勢所趨

“隨著社交平臺功能豐富化、企業(yè)服務(wù)線上化、辦公無紙化等不斷發(fā)展，企業(yè)服務(wù)成為人們?nèi)粘Ｉ钪械闹匾糠?。企業(yè)如何更好地為民眾提供服務(wù)，成為單位企業(yè)方、個人用戶方的共同需求。而短消息基于運(yùn)營商通道，具有實(shí)名制的先天優(yōu)勢，一直被視為企業(yè)服務(wù)的重要平臺。這推動了短消息產(chǎn)業(yè)升級，也是5G消息全面鋪開的契機(jī)?！倍斡曷逭f。

在段雨洛看來，5G消息作為5G“新基建”下首個大規(guī)模落地的5G應(yīng)用，具有巨大的企業(yè)級應(yīng)用市場前景，對個人用戶和企業(yè)單位都具有巨大價值。

使用5G消息，人與人之間可以直接通過手機(jī)號碼進(jìn)行溝通，無需加好友即可發(fā)送視頻、圖片、語音、定位、文件等多媒體消息，還支持咨詢、搜索、瀏覽、下單等動作，非常適合不想加好友但又要發(fā)消息的C2C(個人對個人)交流場景，不下載APP也可以享受企業(yè)服務(wù)，符合輕服務(wù)的大趨勢。

5G消息的交互過程涉及視頻、圖片、語音、智能對話、消息運(yùn)營等多方面內(nèi)容，因此，5G消息產(chǎn)業(yè)鏈將不僅包括監(jiān)管部門、運(yùn)營商、終端廠商，還包括具備視頻制作、內(nèi)容服務(wù)、圖像識別、機(jī)器人交互、語音識別、語義解析、數(shù)據(jù)服務(wù)、運(yùn)營平臺等方面能力的平臺服務(wù)商、內(nèi)容提供商等。段雨洛表示:“5G消息是大勢所趨，將給產(chǎn)業(yè)鏈各端帶來‘ 連鎖反應(yīng) ’，一個不同于傳統(tǒng)短信的巨大新生態(tài)正在形成?！?/p>

據(jù)了解，小源科技作為GSMA會員、5G消息深耕者，自2017年起大力投入RCS技術(shù)研發(fā)，已具備RCS協(xié)議棧開源、SDK等底層技術(shù)開發(fā)以及Chatbot設(shè)計開發(fā)運(yùn)營實(shí)施能力，獨(dú)創(chuàng)智慧消息綜合管理CSP平臺和iMOS平臺，能為客戶提供2G、4G、5G消息綜合解決方案。

“隨著產(chǎn)業(yè)鏈各方的共同努力，5G消息的智能終端普及率迅速提高，我們應(yīng)抓住這個即將到來的新機(jī)會、新突破口，建立用戶對5G消息的信任與使用習(xí)慣，讓5G消息融入大眾生活，成為未來人人必備的企業(yè)服務(wù)平臺?！倍斡曷灞硎尽?/p>

場景決定成敗全力驅(qū)動應(yīng)用落地

作為5G時代和人工智能時代的產(chǎn)物，5G消息在企業(yè)和用戶服務(wù)效果上進(jìn)了一大步。5G消息將消息場景進(jìn)行細(xì)分，以對話形式提供服務(wù)，能夠?yàn)橛脩艨焖倨ヅ浞?wù)場景下的業(yè)務(wù)，各行業(yè)場景可達(dá)數(shù)十萬種。比如，用戶可以輕松完成銀行金融業(yè)務(wù)的注冊、申請、查詢等 ;可以根據(jù)智能助手引導(dǎo)提交資料，完成保險申報; 可以及時收到電商活動通知，參加活動、領(lǐng)券、選購、付款，不用下載安裝APP;可以直接選片、選場、選座，不經(jīng)過第三方平臺買電影票。

其實(shí)，很多企業(yè)商家長期發(fā)送的服務(wù)類、通知類短信都是用戶日常需要的，比如賬單、交易變動、驗(yàn)證碼等等，商家可以在這些短信場景中搭載用戶所需的服務(wù)。當(dāng)用戶收到這些短信時，可以直接點(diǎn)擊消息界面內(nèi)的按鈕，進(jìn)入商城頁面選購并支付，免去了退出短信再打開App的過程，操作步驟越少，用戶服務(wù)體驗(yàn)就越好，影響轉(zhuǎn)化率損失的環(huán)節(jié)也就越少，是企業(yè)服務(wù)轉(zhuǎn)化的高效平臺。

“如今信息越來越多，用戶越來越‘懶’，對精準(zhǔn)化服務(wù)的要求越來越高。而基于場景的服務(wù)推薦，則能夠達(dá)到最高匹配度。因此，能否實(shí)現(xiàn)精準(zhǔn)場景服務(wù)，將是決定5G消息成為企業(yè)服務(wù)平臺的成敗關(guān)鍵?！倍斡曷逭f道。

小源科技作為業(yè)務(wù)場景AI服務(wù)提供商，擁有在4G消息（智慧短信）上的多年運(yùn)營經(jīng)驗(yàn)，服務(wù)企業(yè)3萬余家，掌握了10萬+業(yè)務(wù)服務(wù)場景，基于豐富的經(jīng)驗(yàn)積累，企業(yè)客戶無需從0開始構(gòu)建消息場景，即可實(shí)現(xiàn)從4G消息向“5G消息+4G消息”轉(zhuǎn)變。

小源科技已經(jīng)研發(fā)出了多個可落地的場景應(yīng)用。據(jù)了解，國家電網(wǎng)發(fā)出的第一條5G消息，就離不開北京移動與小源科技的大力支持。同時，小源還助力興業(yè)證券打造證券行業(yè)標(biāo)桿案例，參加了浙江移動5G消息創(chuàng)業(yè)大賽。

小源科技在5G消息生態(tài)中發(fā)揮著積極作用，不僅免費(fèi)開源5G消息引擎，成為了北京、廣東、湖南等各省中國移動運(yùn)營商指定的CSP合作伙伴，共同加速5G消息落地，還協(xié)助短工委在珠海舉辦通信行業(yè)權(quán)威座談會，與行業(yè)企業(yè)共同探討5G消息生態(tài)發(fā)展。

迎接產(chǎn)業(yè)鏈挑戰(zhàn)，抓住新機(jī)遇

5G消息作為新生事物，不可避免需要面對產(chǎn)品普適性、商業(yè)化過程中的各種挑戰(zhàn)，比如垃圾短信、收費(fèi)模式、功能更新、使用安全等各種問題。對于這些問題，段雨洛做出如下回答。

第一是垃圾短信。 垃圾短信如果帶圖、帶視頻，用戶的抵觸情緒會更大。工信部擬出臺針對商業(yè)短信治理措施的規(guī)范:用戶未同意接收不得發(fā)送，用戶表示拒絕的應(yīng)當(dāng)停止。治理決心不可謂不大，可以確定后續(xù)5G消息將會更規(guī)范有序。

第二是收費(fèi)模式。 用戶層面應(yīng)該是流量計費(fèi)模式，而三大運(yùn)營商發(fā)展5G消息的決心非常大，所以甚至可能直接免流量費(fèi)，這也將極大促進(jìn)用戶使用。在企業(yè)層面，目前還沒有收費(fèi)模式出臺，但極有可能是傭金、抽成或者收流量費(fèi)等方式。

第三是功能更新。 5G消息基于RCS UP標(biāo)準(zhǔn)，自主性比較大。但畢竟基于通信通道，這和APP不同，一些大的功能更新肯定離不開三大運(yùn)營商通道、各手機(jī)廠商終端的共同配合。如何統(tǒng)一決策與行動、保持全部機(jī)型同步更新也是非常重要的。

第四是使用安全。 目前還沒有詳細(xì)的安全說明出來，用戶和商家都懷著忐忑心情，甚至不敢嘗試。但在工信部和三大運(yùn)營商監(jiān)管之下，5G消息只有在安全方面做足了技術(shù)準(zhǔn)備，才能進(jìn)行后續(xù)的行業(yè)場景研發(fā)，所以大家也不必過于擔(dān)心。

據(jù)悉，小源科技目前正在積極進(jìn)行規(guī)劃部署，率先推進(jìn)頭部客戶實(shí)現(xiàn)4G消息到5G消息的價值升級，目前已與運(yùn)營商合作開發(fā)出了政務(wù)、醫(yī)療、電力、保險、銀行、證券、電商、商超、餐飲娛樂等行業(yè)的應(yīng)用方案。相信到年底會有首批企業(yè)入駐5G消息平臺，5G消息將面向千行百業(yè)開放，成為真正意義上的5G首個落地應(yīng)用，在覆蓋規(guī)模上實(shí)現(xiàn)突破性進(jìn)展。

“面對挑戰(zhàn)，產(chǎn)業(yè)鏈各方更需要齊心協(xié)力，共同渡過從零到一的冷啟動階段。因此，小源科技一直倡導(dǎo)行業(yè)規(guī)范，積極推進(jìn)5G消息行業(yè)應(yīng)用方案的研發(fā)、管理平臺的開發(fā)、企業(yè)實(shí)際應(yīng)用等，加速5G消息的發(fā)展。我們也非常歡迎更多合作伙伴帶著自己的意向客戶來共同探討合作?！倍斡曷遄詈笳f道。

10月14日

聚焦產(chǎn)業(yè)，吸納新知，共話未來

5G消息生態(tài)發(fā)展論壇，不見不散

三、如何利用深度學(xué)習(xí)技術(shù)訓(xùn)練聊天機(jī)器人語言模型

數(shù)據(jù)預(yù)處理

模型能聊的內(nèi)容也取決于選取的語料。如果已經(jīng)具備了原始聊天數(shù)據(jù)，可以用SQL通過關(guān)鍵字查詢一些對話，也就是從大庫里選取出一個小庫來訓(xùn)練。從一些論文上，很多算法都是在數(shù)據(jù)預(yù)處理層面的，比如Mechanism-Aware Neural Machine for Dialogue Response Generation就介紹了，從大庫中抽取小庫，然后再進(jìn)行融合，訓(xùn)練出有特色的對話來。

對于英語，需要了解NLTK，NLTK提供了加載語料，語料標(biāo)準(zhǔn)化，語料分類，PoS詞性標(biāo)注，語意抽取等功能。

另一個功能強(qiáng)大的工具庫是CoreNLP，作為 Stanford開源出來的工具，特色是實(shí)體標(biāo)注，語意抽取，支持多種語言。

下面主要介紹兩個內(nèi)容：

中文分詞

現(xiàn)在有很多中文分詞的SDK，分詞的算法也比較多，也有很多文章對不同SDK的性能做比較。做中文分詞的示例代碼如下。

# coding:utf8

'''

Segmenter with Chinese

'''

import jieba

import langid

def segment_chinese_sentence(sentence):

'''

Return segmented sentence.

'''

seg_list = jieba.cut(sentence, cut_all=False)

seg_sentence = u" ".join(seg_list)

return seg_sentence.strip().encode('utf8')

def process_sentence(sentence):

'''

Only process Chinese Sentence.

'''

if langid.classify(sentence)[0] == 'zh':

return segment_chinese_sentence(sentence)

return sentence

if __name__ == "__main__":

print(process_sentence('飛雪連天射白鹿'))

print(process_sentence('I have a pen.'))

以上使用了langid先判斷語句是否是中文，然后使用jieba進(jìn)行分詞。

在功能上，jieba分詞支持全切分模式，精確模式和搜索引擎模式。

全切分：輸出所有分詞。

精確：概率上的最佳分詞。

所有引擎模式：對精確切分后的長句再進(jìn)行分詞。

jieba分詞的實(shí)現(xiàn)

主要是分成下面三步：

1、加載字典，在內(nèi)存中建立字典空間。

字典的構(gòu)造是每行一個詞，空格，詞頻，空格，詞性。

上訴書 3 n

上訴人 3 n

上訴期 3 b

上訴狀 4 n

上課 650 v

建立字典空間的是使用python的dict，采用前綴數(shù)組的方式。

使用前綴數(shù)組的原因是樹結(jié)構(gòu)只有一層 - word:freq，效率高，節(jié)省空間。比如單詞"dog", 字典中將這樣存儲：

{

"d": 0,

"do": 0,

"dog": 1 # value為詞頻

}

字典空間的主要用途是對輸入句子建立有向無環(huán)圖，然后根據(jù)算法進(jìn)行切分。算法的取舍主要是根據(jù)模式 - 全切，精確還是搜索。

2、對輸入的語句分詞，首先是建立一個有向無環(huán)圖。

有向無環(huán)圖, Directed acyclic graph (音 /ˈdæɡ/)。

【圖 3-2】 DAG

DAG對于后面計算最大概率路徑和使用HNN模型識別新詞有直接關(guān)系。

3、按照模式，對有向無環(huán)圖進(jìn)行遍歷，比如，在精確模式下，便利就是求最大權(quán)重和的路徑，權(quán)重來自于在字典中定義的詞頻。對于沒有出現(xiàn)在詞典中的詞，連續(xù)的單個字符也許會構(gòu)成新詞。然后用HMM模型和Viterbi算法識別新詞。

精確模型切詞：使用動態(tài)規(guī)劃對最大概率路徑進(jìn)行求解。

最大概率路徑：求route = (w1, w2, w3 ,.., wn)，使得Σweight(wi)最大。Wi為該詞的詞頻。

更多的細(xì)節(jié)還需要讀一下jieba的源碼。

自定義字典

jieba分詞默認(rèn)的字典是:1998人民日報的切分語料還有一個msr的切分語料和一些txt小說。開發(fā)者可以自行添加字典，只要符合字典構(gòu)建的格式就行。

jieba分詞同時提供接口添加詞匯。

Word embedding

使用機(jī)器學(xué)習(xí)訓(xùn)練的語言模型，網(wǎng)絡(luò)算法是使用數(shù)字進(jìn)行計算，在輸入進(jìn)行編碼，在輸出進(jìn)行解碼。word embedding就是編解碼的手段。

【圖 3-3】 word embedding, Ref. #7

word embedding是文本的數(shù)值化表示方法。表示法包括one-hot，bag of words，N-gram，分布式表示，共現(xiàn)矩陣等。

Word2vec

近年來，word2vec被廣泛采用。Word2vec輸入文章或者其他語料，輸出語料中詞匯建設(shè)的詞向量空間。詳細(xì)可參考word2vec數(shù)學(xué)原理解析。

使用word2vec

安裝完成后，得到word2vec命令行工具。

word2vec -train "data/review.txt"

-output "data/review.model"

-cbow 1

-size 100

-window 8

-negative 25

-hs 0

-sample 1e-4

-threads 20

-binary 1

-iter 15

-train "data/review.txt" 表示在指定的語料庫上訓(xùn)練模型

-cbow 1 表示用cbow模型，設(shè)成0表示用skip-gram模型

-size 100 詞向量的維度為100

-window 8 訓(xùn)練窗口的大小為8 即考慮一個單詞的前八個和后八個單詞

-negative 25 -hs 0 是使用negative sample還是HS算法

-sample 1e-4 采用閾值

-threads 20 線程數(shù)

-binary 1 輸出model保存成2進(jìn)制

-iter 15 迭代次數(shù)

在訓(xùn)練完成后，就得到一個model，用該model可以查詢每個詞的詞向量，在詞和詞之間求距離，將不同詞放在數(shù)學(xué)公式中計算輸出相關(guān)性的詞。比如：

vector("法國") - vector("巴黎) + vector("英國") = vector("倫敦")"

對于訓(xùn)練不同的語料庫，可以單獨(dú)的訓(xùn)練詞向量模型，可以利用已經(jīng)訓(xùn)練好的模型。

其它訓(xùn)練詞向量空間工具推薦：Glove。

Seq2Seq

2014年，Sequence to Sequence Learning with Neural Networks提出了使用深度學(xué)習(xí)技術(shù)，基于RNN和LSTM網(wǎng)絡(luò)訓(xùn)練翻譯系統(tǒng)，取得了突破，這一方法便應(yīng)用在更廣泛的領(lǐng)域，比如問答系統(tǒng)，圖像字幕，語音識別，撰寫詩詞等。Seq2Seq完成了【encoder + decoder -> target】的映射，在上面的論文中，清晰的介紹了實(shí)現(xiàn)方式。

【圖 3-4】 Seq2Seq, Ref. #1

也有很多文章解讀它的原理。在使用Seq2Seq的過程中，雖然也研究了它的結(jié)構(gòu)，但我還不認(rèn)為能理解和解釋它。下面談兩點(diǎn)感受：

a. RNN保存了語言順序的特點(diǎn)，這和CNN在處理帶有形狀的模型時如出一轍，就是數(shù)學(xué)模型的設(shè)計符合物理模型。

【圖 3-5】 RNN, Ref. #6

b. LSTM Cell的復(fù)雜度對應(yīng)了自然語言處理的復(fù)雜度。

【圖 3-6】 LSTM, Ref. #6

理由是，有人將LSTM Cell嘗試了多種其它方案傳遞狀態(tài)，結(jié)果也很好。

【圖 3-7】 GRU, Ref. #6

LSTM的一個替代方案：GRU。只要RNN的Cell足夠復(fù)雜，它就能工作的很好。

使用DeepQA2訓(xùn)練語言模型

準(zhǔn)備工作，下載項(xiàng)目：

git clone https://github.com/Samurais/DeepQA2.git

cd DeepQA2

open README.md # 根據(jù)README.md安裝依賴包

DeepQA2將工作分成三個過程：

數(shù)據(jù)預(yù)處理：從語料庫到數(shù)據(jù)字典。

訓(xùn)練模型：從數(shù)據(jù)字典到語言模型。

提供服務(wù)：從語言模型到RESt API。

預(yù)處理

DeepQA2使用Cornell Movie Dialogs Corpus作為demo語料庫。

原始數(shù)據(jù)就是movie_lines.txt 和movie_conversations.txt。這兩個文件的組織形式參考README.txt

deepqa2/dataset/preprocesser.py是將這兩個文件處理成數(shù)據(jù)字典的模塊。

train_max_length_enco就是問題的長度，train_max_length_deco就是答案的長度。在語料庫中，大于該長度的部分會被截斷。

程序運(yùn)行后，會生成dataset-cornell-20.pkl文件，它加載到python中是一個字典：

word2id存儲了{(lán)word: id}，其中word是一個單詞，id是int數(shù)字，代表這個單詞的id。

id2word存儲了{(lán)id: word}。

trainingSamples存儲了問答的對話對。

比如 [[[1,2,3],[4,5,6]], [[7,8,9], [10, 11, 12]]]

1，2，3 ... 12 都是word id。

[1,2,3] 和 [4,5,6] 構(gòu)成一個問答。 [7,8,9] 和 [10, 11, 12] 構(gòu)成一個問答。

開始訓(xùn)練

cp config.sample.ini config.ini # modify keys

python deepqa2/train.py

config.ini是配置文件, 根據(jù)config.sample.ini進(jìn)行修改。訓(xùn)練的時間由epoch，learning rate, maxlength和對話對的數(shù)量而定。

deepqa2/train.py大約100行，完成數(shù)據(jù)字典加載、初始化tensorflow的session，saver，writer、初始化神經(jīng)元模型、根據(jù)epoch進(jìn)行迭代，保存模型到磁盤。

session是網(wǎng)絡(luò)圖，由placeholder, variable, cell, layer, output 組成。

saver是保存model的，也可以用來恢復(fù)model。model就是實(shí)例化variable的session。

writer是查看loss fn或者其他開發(fā)者感興趣的數(shù)據(jù)的收集器。writer的結(jié)果會被saver保存，然后使用tensorboard查看。

Model

Model的構(gòu)建要考慮輸入，狀態(tài)，softmax，輸出。

定義損耗函數(shù)，使用AdamOptimizer進(jìn)行迭代。

最后，參考一下訓(xùn)練的loop部分。

每次訓(xùn)練，model會被存儲在 save路徑下，文件夾的命名根據(jù)機(jī)器的hostname，時間戳生成。

提供服務(wù)

在TensorFlow中，提供了標(biāo)準(zhǔn)的serving模塊 - tensorflow serving。但研究了很久，還專門看了一遍《C++ Essentials》，還沒有將它搞定，社區(qū)也普遍抱怨tensorflow serving不好學(xué)，不好用。訓(xùn)練結(jié)束后，使用下面的腳本啟動服務(wù)，DeepQA2的serve部分還是調(diào)用TensorFlow的python api。

cd DeepQA2/save/deeplearning.cobra.vulcan.20170127.175256/deepqa2/serve

cp db.sample.sqlite3 db.sqlite3

python manage.py runserver 0.0.0.0:8000

測試

POST /api/v1/question HTTP/1.1

Host: 127.0.0.1:8000

Content-Type: application/json

Authorization: Basic YWRtaW46cGFzc3dvcmQxMjM=

Cache-Control: no-cache

{"message": "good to know"}

response

{

"rc": 0,

"msg": "hello"

}

serve的核心代碼在serve/api/chatbotmanager.py中。

使用腳本

scripts/start_training.sh 啟動訓(xùn)練

scripts/start_tensorboard.sh 啟動Tensorboard

scripts/start_serving.sh 啟動服務(wù)

對模型的評價

目前代碼具有很高的維護(hù)性，這也是從DeepQA項(xiàng)目進(jìn)行重構(gòu)的原因，更清晰的數(shù)據(jù)預(yù)處理、訓(xùn)練和服務(wù)。有新的變更可以添加到deepqa2/models中，然后在train.py和chatbotmanager.py變更一下。

有待改進(jìn)的地方

a. 新建models/rnn2.py, 使用dropout。目前DeepQA中已經(jīng)使用了Drop.

b. tensorflow rc0.12.x中已經(jīng)提供了seq2seq network，可以更新成tf版本.

c. 融合訓(xùn)練，目前model只有一個庫，應(yīng)該是設(shè)計一個新的模型，支持一個大庫和小庫，不同權(quán)重進(jìn)行，就如Mechanism-Aware Neural Machine for Dialogue Response Generation的介紹。

d. 代碼支持多機(jī)多GPU運(yùn)行。

e. 目前訓(xùn)練的結(jié)果都是QA對，對于一個問題，可以有多個答案。

f. 目前沒有一個方法進(jìn)行accuracy測試，一個思路是在訓(xùn)練中就提供干擾項(xiàng)，因?yàn)楫?dāng)前只有正確的答案，如果提供錯誤的答案（而且越多越好），就可以使用recall_at_k方法進(jìn)行測試。

機(jī)器人家上了解到的，希望對你有用

四、如何為python聊天機(jī)器人設(shè)計頁面

為 Python 聊天機(jī)器人設(shè)計頁面的方式有很多，下面提供一種基本的方式，你可以根據(jù)自己的需求和技術(shù)水平進(jìn)行適當(dāng)?shù)母暮驼{(diào)整：

1. 選擇一個 Web 框架：常用的 Web 框架有 Flask 和 Django，它們都提供了強(qiáng)大的 Web 開發(fā)功能和模板引擎，使得頁面設(shè)計和開發(fā)更加高效。選擇一個最適合你的框架并進(jìn)行安裝和設(shè)置。

2. 設(shè)計頁面布局和樣式：可以使用 HTML 和 CSS 實(shí)現(xiàn)頁面布局和樣式設(shè)計，也可以選擇開源的 CSS 框架，如 Bootstrap、Materialize 等，它們提供了更加美觀和易用的頁面組件和樣式。

3. 與 Python 后端進(jìn)行通信：可以使用 AJAX 或 WebSocket 等技術(shù)與 Python 后端進(jìn)行通信，發(fā)送消息和接收響應(yīng)，實(shí)現(xiàn)聊天機(jī)器人的交互和功能。

4. 集成聊天機(jī)器人 API：可以選擇開源的聊天機(jī)器人 API，如 ChatterBot、Dialogflow 等，在 Python 后端中調(diào)用這些 API 實(shí)現(xiàn)聊天機(jī)器人的自然語言處理和對話管理。同時，也可以使用自己的聊天機(jī)器人模型和算法進(jìn)行集成和進(jìn)一步優(yōu)化。

5. 測試和部署：在完成頁面設(shè)計和集成聊天機(jī)器人 API 后，進(jìn)行測試和部署，確保其正常工作和高可用性。部署方案可以選擇云服務(wù)平臺，如 AWS、Azure、Google Cloud 等，或使用自己的服務(wù)器進(jìn)行部署。

總之，為 Python 聊天機(jī)器人設(shè)計頁面需要進(jìn)行多方面的工作，包括前端頁面設(shè)計、后端 API 集成、測試和部署等。需要具備一定的 Web 開發(fā)和 Python 編程經(jīng)驗(yàn)，同時也需要了解聊天機(jī)器人相關(guān)的自然語言處理和對話管理技術(shù)。

以上就是關(guān)于開源chatbot相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。