-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
知識圖譜和圖神經(jīng)網(wǎng)絡(luò)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于知識圖譜和圖神經(jīng)網(wǎng)絡(luò)的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、知識圖譜概念是什么?
知識圖譜的概念是:知識圖譜是自頂向下(top-down)的構(gòu)建方式。自頂向下指的是先為知識圖譜定義好本體與數(shù)據(jù)模式,再將實體加入到知識庫。
該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識庫作為其基礎(chǔ)知識庫,例如 Freebase 項目就是采用這種方式,它的絕大部分?jǐn)?shù)據(jù)是從維基百科中得到的。
然而目前,大多數(shù)知識圖譜都采用自底向上(bottom-up)的構(gòu)建方式。自底向上指的是從一些開放連接數(shù)據(jù)(也就是 “信息”)中提取出實體,選擇其中置信度較高的加入到知識庫,再構(gòu)建實體與實體之間的聯(lián)系。
知識圖譜的體系架構(gòu)是:
知識圖譜的架構(gòu)主要包括自身的邏輯結(jié)構(gòu)以及體系架構(gòu)。
知識圖譜在邏輯結(jié)構(gòu)上可分為模式層與數(shù)據(jù)層兩個層次,數(shù)據(jù)層主要是由一系列的事實組成,而知識將以事實為單位進(jìn)行存儲。
如果用(實體1,關(guān)系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達(dá)事實,可選擇圖數(shù)據(jù)庫作為存儲介質(zhì),例如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式層構(gòu)建在數(shù)據(jù)層之上,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實表達(dá)。本體是結(jié)構(gòu)化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結(jié)構(gòu)較強(qiáng),并且冗余程度較小。
大規(guī)模知識庫的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持。通過知識抽取技術(shù),可以從一些公開的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)中提取出實體、關(guān)系、屬性等知識要素。通過知識融合,可消除實體、關(guān)系、屬性等指稱項與事實對象之間的歧義,形成高質(zhì)量的知識庫。
知識推理則是在已有的知識庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識,從而豐富、擴(kuò)展知識庫。分布式的知識表示形成的綜合向量對知識庫的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義。
二、2020 推薦系統(tǒng)技術(shù)演進(jìn)趨勢了解
讀知乎文章《推薦系統(tǒng)技術(shù)演進(jìn)趨勢:從召回到排序再到重排》筆記:
《推薦系統(tǒng)技術(shù)演進(jìn)趨勢:從召回到排序再到重排》這篇文章主要說了下最近兩年,推薦系統(tǒng)技術(shù)的一些比較明顯的技術(shù)發(fā)展趨勢。主要從以下幾個方面介紹:
推薦系統(tǒng)整體架構(gòu)
召回技術(shù)演進(jìn)趨勢
排序模型技術(shù)演進(jìn)趨勢
重排技術(shù)演進(jìn)趨勢
推薦系統(tǒng)宏觀架構(gòu):
細(xì)分四階段:
1、傳統(tǒng):多路召回(每一路召回相當(dāng)于單特征排序結(jié)果)
2、未來:模型召回(引入多特征,把單特征排序拓展成多特征排序的模型)
(1)模型召回
根據(jù)用戶物品Embedding,采用類似Faiss等高效Embedding檢索工具,快速找出和用戶興趣匹配的物品,這樣就等于做出了利用多特征融合的召回模型了。
理論上來說,任何你能見到的有監(jiān)督模型,都可以用來做這個召回模型,比如FM/FFM/DNN等,常說的所謂“雙塔”模型,指的其實是用戶側(cè)和物品側(cè)特征分離分別打Embedding的結(jié)構(gòu)而已,并非具體的模型。
值得注意的一點是:如果在召回階段使用模型召回,理論上也應(yīng)該同步采用和排序模型相同的優(yōu)化目標(biāo),尤其是如果排序階段采用多目標(biāo)優(yōu)化的情況下,召回模型也應(yīng)該對應(yīng)采取相同的多目標(biāo)優(yōu)化。同理,如果整個流程中包含粗排模塊,粗排也應(yīng)該采用和精排相同的多目標(biāo)優(yōu)化,幾個環(huán)節(jié)優(yōu)化目標(biāo)應(yīng)保持一致。因為召回和粗排是精排的前置環(huán)節(jié),否則,如果優(yōu)化目標(biāo)不一致,很可能會出現(xiàn)高質(zhì)量精排目標(biāo),在前置環(huán)節(jié)就被過濾掉的可能,影響整體效果。
(2)用戶行為序列召回
核心在于:這個物品聚合函數(shù)Fun如何定義的問題。這里需要注意的一點是:用戶行為序列中的物品,是有時間順序的。理論上,任何能夠體現(xiàn)時序特點或特征局部性關(guān)聯(lián)的模型,都比較適合應(yīng)用在這里,典型的比如CNN、RNN、Transformer、GRU(RNN的變體模型)等,都比較適合用來集成用戶行為序列信息。
在召回階段,如何根據(jù)用戶行為序列打embedding,可以采取有監(jiān)督的模型,比如Next Item Prediction的預(yù)測方式即可;也可以采用無監(jiān)督的方式,比如物品只要能打出embedding,就能無監(jiān)督集成用戶行為序列內(nèi)容,例如Sum Pooling。
(3)用戶多興趣拆分 (利用用戶行為物品序列,打出用戶興趣Embedding的做法)
(4)知識圖譜融合召回
根據(jù)用戶的興趣實體,通過知識圖譜的實體Embedding化表達(dá)后(或者直接在知識圖譜節(jié)點上外擴(kuò)),通過知識外擴(kuò)或者可以根據(jù)Embedding相似性,拓展出相關(guān)實體。
(5)圖神經(jīng)網(wǎng)絡(luò)模型召回
圖神經(jīng)網(wǎng)絡(luò)的最終目的是要通過一定技術(shù)手段,獲得圖中節(jié)點的embedding編碼。最常用的embedding聚合工具是CNN,對于某個圖節(jié)點來說,它的輸入可以有兩類信息,一類是自身的屬性信息,比如上面舉的微博的例子;另外一類是圖結(jié)構(gòu)信息,就是和當(dāng)前節(jié)點有直接邊關(guān)聯(lián)的其它節(jié)點信息。 通過CNN,可以對兩類信息進(jìn)行編碼和聚合,形成圖節(jié)點的embedding。 通過CNN等信息聚合器,在圖節(jié)點上進(jìn)行計算,并反復(fù)迭代更新圖節(jié)點的embedding,就能夠最終獲得可靠的圖節(jié)點embedding信息,而這種迭代過程,其實體現(xiàn)的是遠(yuǎn)距離的節(jié)點將信息逐步通過圖結(jié)構(gòu)傳遞信息的過程,所以圖結(jié)構(gòu)是可以進(jìn)行知識傳遞和補(bǔ)充的。
我們可以進(jìn)一步思考下,圖節(jié)點因為可以帶有屬性信息,比如物品的Content信息,所以明顯這對于解決物品側(cè)的冷啟動問題有幫助;而因為它也允許知識在圖中遠(yuǎn)距離進(jìn)行傳遞,所以比如對于用戶行為比較少的場景,可以形成知識傳遞和補(bǔ)充,這說明它也比較適合用于數(shù)據(jù)稀疏的推薦場景;另外一面,圖中的邊往往是通過用戶行為構(gòu)建的,而用戶行為,在統(tǒng)計層面來看,本質(zhì)上是一種協(xié)同信息,比如我們常說的“A物品協(xié)同B物品”,本質(zhì)上就是說很多用戶行為了物品A后,大概率會去對物品B進(jìn)行行為; 所以圖具備的一個很好的優(yōu)勢是:它比較便于把協(xié)同信息、用戶行為信息、內(nèi)容屬性信息等各種異質(zhì)信息在一個統(tǒng)一的框架里進(jìn)行融合,并統(tǒng)一表征為embedding的形式,這是它獨有的一個優(yōu)勢,做起來比較自然。另外的一個特有優(yōu)勢,就是信息在圖中的傳播性,所以對于推薦的冷啟動以及數(shù)據(jù)稀疏場景應(yīng)該特別有用。
早期的圖神經(jīng)網(wǎng)絡(luò)做推薦,因為需要全局信息,所以計算速度是個問題,往往圖規(guī)模都非常小,不具備實戰(zhàn)價值。而GraphSAGE則通過一些手段比如從臨近節(jié)點進(jìn)行采樣等減少計算規(guī)模,加快計算速度,很多后期改進(jìn)計算效率的方法都是從這個工作衍生的;而PinSage在GraphSAGE基礎(chǔ)上(這是同一撥人做的),進(jìn)一步采取大規(guī)模分布式計算,拓展了圖計算的實用性,可以計算Pinterest的30億規(guī)模節(jié)點、180億規(guī)模邊的巨型圖,并產(chǎn)生了較好的落地效果。所以這兩個工作可以重點借鑒一下。
總體而言,圖模型召回,是個很有前景的值得探索的方向。
模型優(yōu)化目標(biāo)則體現(xiàn)了我們希望推薦系統(tǒng)去做好什么,往往跟業(yè)務(wù)目標(biāo)有關(guān)聯(lián),這里我們主要從技術(shù)角度來探討,而多目標(biāo)優(yōu)化以及ListWise最優(yōu)是目前最常見的技術(shù)進(jìn)化方向,ListWise優(yōu)化目標(biāo)在排序階段和重排階段都可采用,我們把它放到重排部分去講,這里主要介紹多目標(biāo)優(yōu)化;
模型表達(dá)能力代表了模型是否具備充分利用有效特征及特征組合的能力,其中顯示特征組合、新型特征抽取器、增強(qiáng)學(xué)習(xí)技術(shù)應(yīng)用以及AutoML自動探索模型結(jié)構(gòu)是這方面明顯的技術(shù)進(jìn)化方向;
從特征和信息角度,如何采用更豐富的新類型特征,以及信息和特征的擴(kuò)充及融合是主要技術(shù)進(jìn)化方向,用戶長短期興趣分離、用戶行為序列數(shù)據(jù)的使用、圖神經(jīng)網(wǎng)絡(luò)以及多模態(tài)融合等是這方面的主要技術(shù)趨勢。
1.1 模型優(yōu)化目標(biāo)-多目標(biāo)優(yōu)化
推薦系統(tǒng)的多目標(biāo)優(yōu)化(點擊,互動,時長等多個目標(biāo)同時優(yōu)化)嚴(yán)格來說不僅僅是趨勢,而是目前很多公司的研發(fā)現(xiàn)狀。對于推薦系統(tǒng)來說,不同的優(yōu)化目標(biāo)可能存在互相拉后腿的現(xiàn)象,多目標(biāo)旨在平衡不同目標(biāo)的相互影響,而如果多目標(biāo)優(yōu)化效果好,對于業(yè)務(wù)效果的推動作用也非常大。總而言之,多目標(biāo)優(yōu)化是值得推薦系統(tǒng)相關(guān)研發(fā)人員重點關(guān)注的技術(shù)方向。
從技術(shù)角度講,多目標(biāo)優(yōu)化最關(guān)鍵的有兩個問題。第一個問題是多個優(yōu)化目標(biāo)的模型結(jié)構(gòu)問題;第二個問題是不同優(yōu)化目標(biāo)的重要性如何界定的問題(超參如何尋優(yōu))。
2.1 模型表達(dá)能力-顯式特征組合
如果歸納下工業(yè)界CTR模型的演化歷史的話,你會發(fā)現(xiàn),特征工程及特征組合的自動化,一直是推動實用化推薦系統(tǒng)技術(shù)演進(jìn)最主要的方向,而且沒有之一。最早的LR模型,基本是人工特征工程及人工進(jìn)行特征組合的,簡單有效但是費時費力;再發(fā)展到LR+GBDT的 高階特征組合自動化 ,以及FM模型的 二階特征組合自動化 ;再往后就是DNN模型的引入,純粹的簡單DNN模型本質(zhì)上其實是在FM模型的特征Embedding化基礎(chǔ)上,添加幾層MLP隱層來進(jìn)行隱式的特征非線性自動組合而已。
2.2 模型表達(dá)能力-特征抽取器的進(jìn)化
從特征抽取器的角度來看,目前主流的DNN 排序模型,最常用的特征抽取器仍然是MLP結(jié)構(gòu),圖像領(lǐng)域的CNN、NLP領(lǐng)域的RNN和Transformer。
MLP結(jié)構(gòu)通常是兩層或者三層的MLP隱層。目前也有理論研究表明:MLP結(jié)構(gòu)用來捕獲特征組合,是效率比較低下的。
CNN捕獲局部特征關(guān)聯(lián)是非常有效的結(jié)構(gòu),但是并不太適合做純特征輸入的推薦模型,因為推薦領(lǐng)域的特征之間,在輸入順序上并無必然的序列關(guān)系,CNN的捕獲遠(yuǎn)距離特征關(guān)系能力差的弱點,以及RNN的不可并行處理、所以速度慢的劣勢等。
Transformer作為NLP領(lǐng)域最新型也是最有效的特征抽取器,從其工作機(jī)制來說,其實是非常適合用來做推薦的。為什么這么說呢?核心在于Transformer的Multi-Head Self Attention機(jī)制上。MHA結(jié)構(gòu)在NLP里面,會對輸入句子中任意兩個單詞的相關(guān)程度作出判斷,而如果把這種關(guān)系套用到推薦領(lǐng)域,就是通過MHA來對任意特征進(jìn)行特征組合,而上文說過,特征組合對于推薦是個很重要的環(huán)節(jié),所以從這個角度來說,Transformer是特別適合來對特征組合進(jìn)行建模的,一層Transformer Block代表了特征的二階組合,更多的Transformer Block代表了更高階的特征組合。但是,實際上如果應(yīng)用Transformer來做推薦,其應(yīng)用效果并沒有體現(xiàn)出明顯優(yōu)勢,甚至沒有體現(xiàn)出什么優(yōu)勢,基本稍微好于或者類似于典型的MLP結(jié)構(gòu)的效果。這意味著,可能我們需要針對推薦領(lǐng)域特點,對Transformer需要進(jìn)行針對性的改造,而不是完全直接照搬NLP里的結(jié)構(gòu)。
截一張張老師其他關(guān)于Transformer的圖,足以說明Transformer的意義,但現(xiàn)在還不是很懂,哈哈~
2.3 AutoML在推薦的應(yīng)用
AutoML在17年初開始出現(xiàn),最近三年蓬勃發(fā)展,在比如圖像領(lǐng)域、NLP領(lǐng)域等都有非常重要的研究進(jìn)展,在這些領(lǐng)域,目前都能通過AutoML找到比人設(shè)計的效果更好的模型結(jié)構(gòu)。
2.4 增強(qiáng)學(xué)習(xí)在推薦的應(yīng)用
增強(qiáng)學(xué)習(xí)其實是比較吻合推薦場景建模的。一般而言,增強(qiáng)學(xué)習(xí)有幾個關(guān)鍵要素:狀態(tài)、行為以及回報。在推薦場景下,我們可以把狀態(tài)St定義為用戶的行為歷史物品集合;推薦系統(tǒng)可選的行為空間則是根據(jù)用戶當(dāng)前狀態(tài)St推薦給用戶的推薦結(jié)果列表,這里可以看出,推薦場景下,用戶行為空間是巨大無比的,這制約了很多無法對巨大行為空間建模的增強(qiáng)學(xué)習(xí)方法的應(yīng)用;而回報呢,則是用戶對推薦系統(tǒng)給出的列表內(nèi)容進(jìn)行互動的行為價值,比如可以定義點擊了某個物品,則回報是1,購買了某個物品,回報是5….諸如此類。有了這幾個要素的場景定義,就可以用典型的增強(qiáng)學(xué)習(xí)來對推薦進(jìn)行建模。
3.1 多模態(tài)信息融合
多模態(tài)融合,從技術(shù)手段來說,本質(zhì)上是把不同模態(tài)類型的信息,通過比如Embedding編碼,映射到統(tǒng)一的語義空間內(nèi),使得不同模態(tài)的信息,表達(dá)相同語義的信息完全可類比。比如說自然語言說的單詞“蘋果”,和一張?zhí)O果的圖片,應(yīng)該通過一定的技術(shù)手段,對兩者進(jìn)行信息編碼,比如打出的embedding,相似度是很高的,這意味著不同模態(tài)的知識映射到了相同的語義空間了。這樣,你可以通過文本的蘋果,比如搜索包含蘋果的照片。
3.2 長期興趣/短期興趣分離
對于推薦系統(tǒng)而言,準(zhǔn)確描述用戶興趣是非常重要的。目前常用的描述用戶興趣的方式主要有兩類。一類是以用戶側(cè)特征的角度來表征用戶興趣,也是最常見的;另外一類是以用戶發(fā)生過行為的物品序列作為用戶興趣的表征。
關(guān)于List Wise重排序,可以從兩個角度來說,一個是優(yōu)化目標(biāo)或損失函數(shù);一個是推薦模塊的模型結(jié)構(gòu)。
推薦系統(tǒng)里L(fēng)earning to Rank做排序,我們知道常見的有三種優(yōu)化目標(biāo):Point Wise、Pair Wise和List Wise。所以我們首先應(yīng)該明確的一點是:List Wise它不是指的具體的某個或者某類模型,而是指的模型的優(yōu)化目標(biāo)或者損失函數(shù)定義方式,理論上各種不用的模型都可以使用List Wise損失來進(jìn)行模型訓(xùn)練。最簡單的損失函數(shù)定義是Point Wise,就是輸入用戶特征和單個物品特征,對這個物品進(jìn)行打分,物品之間的排序,就是誰應(yīng)該在誰前面,不用考慮。明顯這種方式無論是訓(xùn)練還是在線推理,都非常簡單直接效率高,但是它的缺點是沒有考慮物品直接的關(guān)聯(lián),而這在排序中其實是有用的。Pair Wise損失在訓(xùn)練模型時,直接用兩個物品的順序關(guān)系來訓(xùn)練模型,就是說優(yōu)化目標(biāo)是物品A排序要高于物品B,類似這種優(yōu)化目標(biāo)。其實Pair Wise的Loss在推薦領(lǐng)域已經(jīng)被非常廣泛得使用,比如BPR損失,就是典型且非常有效的Pair Wise的Loss Function,經(jīng)常被使用,尤其在隱式反饋中,是非常有效的優(yōu)化目標(biāo)。List Wise的Loss更關(guān)注整個列表中物品順序關(guān)系,會從列表整體中物品順序的角度考慮,來優(yōu)化模型。在推薦中,List Wise損失函數(shù)因為訓(xùn)練數(shù)據(jù)的制作難,訓(xùn)練速度慢,在線推理速度慢等多種原因,盡管用的還比較少,但是因為更注重排序結(jié)果整體的最優(yōu)性,所以也是目前很多推薦系統(tǒng)正在做的事情。
從模型結(jié)構(gòu)上來看。因為重排序模塊往往是放在精排模塊之后,而精排已經(jīng)對推薦物品做了比較準(zhǔn)確的打分,所以往往重排模塊的輸入是精排模塊的Top得分輸出結(jié)果,也就是說,是有序的。而精排模塊的打分或者排序?qū)τ谥嘏拍K來說,是非常重要的參考信息。于是,這個排序模塊的輸出順序就比較重要,而能夠考慮到輸入的序列性的模型,自然就是重排模型的首選。我們知道,最常見的考慮時序性的模型是RNN和Transformer,所以經(jīng)常把這兩類模型用在重排模塊,這是很自然的事情。一般的做法是:排序Top結(jié)果的物品有序,作為RNN或者Transformer的輸入,RNN或者Transformer明顯可以考慮在特征級別,融合當(dāng)前物品上下文,也就是排序列表中其它物品,的特征,來從列表整體評估效果。RNN或者Transformer每個輸入對應(yīng)位置經(jīng)過特征融合,再次輸出預(yù)測得分,按照新預(yù)測的得分重新對物品排序,就完成了融合上下文信息,進(jìn)行重新排序的目的。
參考資料:
1、推薦系統(tǒng)技術(shù)演進(jìn)趨勢:從召回到排序再到重排
https://zhuanlan.zhihu.com/p/100019681
2、模型召回典型工作:
FM模型召回: 推薦系統(tǒng)召回四模型之:全能的FM模型
DNN雙塔召回:Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations
3、用戶行為序列召回典型工作:
GRU:Recurrent Neural Networks with Top-k Gains for Session-based Recommendations
CNN:Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding
Transformer: Self-Attentive Sequential Recommendation
4、知識圖譜融合召回典型工作:
KGAT: Knowledge Graph Attention Network for Recommendation
RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems
5、圖神經(jīng)網(wǎng)絡(luò)模型召回典型工作:
GraphSAGE: Inductive Representation Learning on Large Graphs
PinSage: Graph Convolutional Neural Networks for Web-Scale Recommender Systems
6、模型多目標(biāo)優(yōu)化典型工作:
MMOE:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts
帕累托最優(yōu):A Pareto-Efficient Algorithm for Multiple Objective Optimization in E-Commerce Recommendation
7、顯式特征組合典型工作:
Deep& Cross: Deep & Cross Network for Ad Click Predictions
XDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems
8、特征抽取器典型工作:
AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks
DeepFM: An End-to-End Wide & Deep Learning Framework for CTR Prediction
9、對比CNN\RNN\特征抽取器: https://zhuanlan.zhihu.com/p/54743941
10、AutoML在推薦的應(yīng)用典型工作:
ENAS結(jié)構(gòu)搜索: AutoML在推薦排序網(wǎng)絡(luò)結(jié)構(gòu)搜索的應(yīng)用
雙線性特征組合: FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction
11、增強(qiáng)學(xué)習(xí)在推薦的應(yīng)用典型工作:
Youtube: Top-K Off-Policy Correction for a REINFORCE Recommender System
Youtube: Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology
12、多模態(tài)融合典型工作:
DNN召回:Collaborative Multi-modal deep learning for the personalized product retrieval in Facebook Marketplace
排序:Image Matters: Visually modeling user behaviors using Advanced Model Server
13、長短期興趣分離典型工作:
1. Neural News Recommendation with Long- and Short-term User Representations
2. Sequence-Aware Recommendation with Long-Term and Short-Term Attention Memory Networks
14、List Wise重排序典型工作:
1.Personalized Re-ranking for Recommendation
2.Learning a Deep Listwise Context Model for Ranking Refinement
三、知識圖譜有什么用處?
知識圖譜 (Knowledge Graph) 是當(dāng)前的研究熱點。自從2012年Google推出自己第一版知識圖譜以來,它在學(xué)術(shù)界和工業(yè)界掀起了一股熱潮。各大互聯(lián)網(wǎng)企業(yè)在之后的短短一年內(nèi)紛紛推出了自己的知識圖譜產(chǎn)品以作為回應(yīng)。比如在國內(nèi),互聯(lián)網(wǎng)巨頭百度和搜狗分別推出”知心“和”知立方”來改進(jìn)其搜索質(zhì)量。那么與這些傳統(tǒng)的互聯(lián)網(wǎng)公司相比,對處于當(dāng)今風(fēng)口浪尖上的行業(yè) - 互聯(lián)網(wǎng)金融, 知識圖譜可以有哪方面的應(yīng)用呢?
目錄
1. 什么是知識圖譜?
2. 知識圖譜的表示
3. 知識圖譜的存儲
4. 應(yīng)用
5. 挑戰(zhàn)
6. 結(jié)語
1. 什么是知識圖譜?
知識圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關(guān)系”。知識圖譜是關(guān)系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關(guān)系網(wǎng)絡(luò)。知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。
知識圖譜這個概念最早由Google提出,主要是用來優(yōu)化現(xiàn)有的搜索引擎。不同于基于關(guān)鍵詞搜索的傳統(tǒng)搜索引擎,知識圖譜可用來更好地查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。比如在Google的搜索框里輸入Bill Gates的時候,搜索結(jié)果頁面的右側(cè)還會出現(xiàn)Bill Gates相關(guān)的信息比如出生年月,家庭情況等等。
另外,對于稍微復(fù)雜的搜索語句比如 ”Who is the wife of Bill Gates“,Google能準(zhǔn)確返回他的妻子Melinda Gates。這就說明搜索引擎通過知識圖譜真正理解了用戶的意圖。
上面提到的知識圖譜都是屬于比較寬泛的范疇,在通用領(lǐng)域里解決搜索引擎優(yōu)化和問答系統(tǒng)(Question-Answering)等方面的問題。接下來我們看一下特定領(lǐng)域里的 (Domain-Specific) 知識圖譜表示方式和應(yīng)用,這也是工業(yè)界比較關(guān)心的話題。
2. 知識圖譜的表示
假設(shè)我們用知識圖譜來描述一個事實(Fact) - “張三是李四的父親”。這里的實體是張三和李四,關(guān)系是“父親”(is_father_of)。當(dāng)然,張三和李四也可能會跟其他人存在著某種類型的關(guān)系(暫時不考慮)。當(dāng)我們把電話號碼也作為節(jié)點加入到知識圖譜以后(電話號碼也是實體),人和電話之間也可以定義一種關(guān)系叫 has_phone,就是說某個電話號碼是屬于某個人。下面的圖就展示了這兩種不同的關(guān)系。
另外,我們可以把時間作為屬性(Property)添加到 has_phone 關(guān)系里來表示開通電話號碼的時間。這種屬性不僅可以加到關(guān)系里,還可以加到實體當(dāng)中,當(dāng)我們把所有這些信息作為關(guān)系或者實體的屬性添加后,所得到的圖譜稱之為屬性圖 (Property Graph)。屬性圖和傳統(tǒng)的RDF格式都可以作為知識圖譜的表示和存儲方式,但二者還是有區(qū)別的,這將在后面章節(jié)做簡單說明。
3. 知識圖譜的存儲
知識圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),它的存儲方式主要有兩種形式:RDF存儲格式和圖數(shù)據(jù)庫(Graph Database)。至于它們有哪些區(qū)別,請參考【1】。下面的曲線表示各種數(shù)據(jù)存儲類型在最近幾年的發(fā)展情況。從這里我們可以明顯地看到基于圖的存儲方式在整個數(shù)據(jù)庫存儲領(lǐng)域的飛速發(fā)展。這幅曲線圖來源于 Graph DBMS increased their popularity by 500% within the last 2 years
下面的列表表示的是目前比較流行的基于圖存儲的數(shù)據(jù)庫排名。從這個排名中可以看出neo4j在整個圖存儲領(lǐng)域里占據(jù)著NO.1的地位,而且在RDF領(lǐng)域里Jena還是目前為止最為流行的存儲框架。這部分?jǐn)?shù)據(jù)來源于 DB-Engines Ranking
當(dāng)然,如果需要設(shè)計的知識圖譜非常簡單,而且查詢也不會涉及到1度以上的關(guān)聯(lián)查詢,我們也可以選擇用關(guān)系型數(shù)據(jù)存儲格式來保存知識圖譜。但對那些稍微復(fù)雜的關(guān)系網(wǎng)絡(luò)(現(xiàn)實生活中的實體和關(guān)系普遍都比較復(fù)雜),知識圖譜的優(yōu)點還是非常明顯的。首先,在關(guān)聯(lián)查詢的效率上會比傳統(tǒng)的存儲方式有顯著的提高。當(dāng)我們涉及到2,3度的關(guān)聯(lián)查詢,基于知識圖譜的查詢效率會高出幾千倍甚至幾百萬倍。其次,基于圖的存儲在設(shè)計上會非常靈活,一般只需要局部的改動即可。比如我們有一個新的數(shù)據(jù)源,我們只需要在已有的圖譜上插入就可以。于此相反,關(guān)系型存儲方式靈活性方面比較差,它所有的Schema都是提前定義好的,如果后續(xù)要改變,它的代價是非常高的。最后,把實體和關(guān)系存儲在圖數(shù)據(jù)結(jié)構(gòu)是一種符合整個故事邏輯的最好的方式。
4. 應(yīng)用
在本文中,我們主要討論知識圖譜在互聯(lián)網(wǎng)金融行業(yè)中的應(yīng)用。當(dāng)然,很多應(yīng)用場景和想法都可以延伸到其他的各行各業(yè)。這里提到的應(yīng)用場景只是冰山一角, 在很多其他的應(yīng)用上,知識圖譜仍然可以發(fā)揮它潛在的價值, 我們在后續(xù)的文章中會繼續(xù)討論。
反欺詐
反欺詐是風(fēng)控中非常重要的一道環(huán)節(jié)。基于大數(shù)據(jù)的反欺詐的難點在于如何把不同來源的數(shù)據(jù)(結(jié)構(gòu)化,非結(jié)構(gòu))整合在一起,并構(gòu)建反欺詐引擎,從而有效地識別出欺詐案件(比如身份造假,團(tuán)體欺詐,代辦包裝等)。而且不少欺詐案件會涉及到復(fù)雜的關(guān)系網(wǎng)絡(luò),這也給欺詐審核帶來了新的挑戰(zhàn)。 知識圖譜,作為關(guān)系的直接表示方式,可以很好地解決這兩個問題。 首先,知識圖譜提供非常便捷的方式來添加新的數(shù)據(jù)源,這一點在前面提到過。其次,知識圖譜本身就是用來表示關(guān)系的,這種直觀的表示方法可以幫助我們更有效地分析復(fù)雜關(guān)系中存在的特定的潛在風(fēng)險。
反欺詐的核心是人,首先需要把與借款人相關(guān)的所有的數(shù)據(jù)源打通,并構(gòu)建包含多數(shù)據(jù)源的知識圖譜,從而整合成為一臺機(jī)器可以理解的結(jié)構(gòu)化的知識。在這里,我們不僅可以整合借款人的基本信息(比如申請時填寫的信息),還可以把借款人的消費記錄、行為記錄、網(wǎng)上的瀏覽記錄等整合到整個知識圖譜里,從而進(jìn)行分析和預(yù)測。這里的一個難點是很多的數(shù)據(jù)都是從網(wǎng)絡(luò)上獲取的非結(jié)構(gòu)化數(shù)據(jù),需要利用機(jī)器學(xué)習(xí)、自然語言處理技術(shù)把這些數(shù)據(jù)變成結(jié)構(gòu)化的數(shù)據(jù)。
不一致性驗證
不一致性驗證可以用來判斷一個借款人的欺詐風(fēng)險,這個跟交叉驗證類似。比如借款人張三和借款人李四填寫的是同一個公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個風(fēng)險點,需要審核人員格外的注意。
再比如,借款人說跟張三是朋友關(guān)系,跟李四是父子關(guān)系。當(dāng)我們試圖把借款人的信息添加到知識圖譜里的時候,“一致性驗證”引擎會觸發(fā)。引擎首先會去讀取張三和李四的關(guān)系,從而去驗證這個“三角關(guān)系”是否正確。很顯然,朋友的朋友不是父子關(guān)系,所以存在著明顯的不一致性。
不一致性驗證涉及到知識的推理。通俗地講,知識的推理可以理解成“鏈接預(yù)測”,也就是從已有的關(guān)系圖譜里推導(dǎo)出新的關(guān)系或鏈接。 比如在上面的例子,假設(shè)張三和李四是朋友關(guān)系,而且張三和借款人也是朋友關(guān)系,那我們可以推理出借款人和李四也是朋友關(guān)系。
組團(tuán)欺詐
相比虛假身份的識別,組團(tuán)欺詐的挖掘難度更大。這種組織在非常復(fù)雜的關(guān)系網(wǎng)絡(luò)里隱藏著,不容易被發(fā)現(xiàn)。當(dāng)我們只有把其中隱含的關(guān)系網(wǎng)絡(luò)梳理清楚,才有可能去分析并發(fā)現(xiàn)其中潛在的風(fēng)險。知識圖譜,作為天然的關(guān)系網(wǎng)絡(luò)的分析工具,可以幫助我們更容易地去識別這種潛在的風(fēng)險。舉一個簡單的例子,有些組團(tuán)欺詐的成員會用虛假的身份去申請貸款,但部分信息是共享的。下面的圖大概說明了這種情形。從圖中可以看出張三、李四和王五之間沒有直接的關(guān)系,但通過關(guān)系網(wǎng)絡(luò)我們很容易看出這三者之間都共享著某一部分信息,這就讓我們馬上聯(lián)想到欺詐風(fēng)險。雖然組團(tuán)欺詐的形式眾多,但有一點值得肯定的是知識圖譜一定會比其他任何的工具提供更佳便捷的分析手段。
異常分析(Anomaly Detection)
異常分析是數(shù)據(jù)挖掘研究領(lǐng)域里比較重要的課題。我們可以把它簡單理解成從給定的數(shù)據(jù)中找出“異?!秉c。在我們的應(yīng)用中,這些”異?!包c可能會關(guān)聯(lián)到欺詐。既然知識圖譜可以看做是一個圖 (Graph),知識圖譜的異常分析也大都是基于圖的結(jié)構(gòu)。由于知識圖譜里的實體類型、關(guān)系類型不同,異常分析也需要把這些額外的信息考慮進(jìn)去。大多數(shù)基于圖的異常分析的計算量比較大,可以選擇做離線計算。在我們的應(yīng)用框架中,可以把異常分析分為兩大類: 靜態(tài)分析和動態(tài)分析,后面會逐一講到。
- 靜態(tài)分析
所謂的靜態(tài)分析指的是,給定一個圖形結(jié)構(gòu)和某個時間點,從中去發(fā)現(xiàn)一些異常點(比如有異常的子圖)。下圖中我們可以很清楚地看到其中五個點的相互緊密度非常強(qiáng),可能是一個欺詐組織。所以針對這些異常的結(jié)構(gòu),我們可以做出進(jìn)一步的分析。
- 動態(tài)分析
所謂的動態(tài)分析指的是分析其結(jié)構(gòu)隨時間變化的趨勢。我們的假設(shè)是,在短時間內(nèi)知識圖譜結(jié)構(gòu)的變化不會太大,如果它的變化很大,就說明可能存在異常,需要進(jìn)一步的關(guān)注。分析結(jié)構(gòu)隨時間的變化會涉及到時序分析技術(shù)和圖相似性計算技術(shù)。有興趣的讀者可以去參考這方面的資料【2】。
失聯(lián)客戶管理
除了貸前的風(fēng)險控制,知識圖譜也可以在貸后發(fā)揮其強(qiáng)大的作用。比如在貸后失聯(lián)客戶管理的問題上,知識圖譜可以幫助我們挖掘出更多潛在的新的聯(lián)系人,從而提高催收的成功率。
現(xiàn)實中,不少借款人在借款成功后出現(xiàn)不還款現(xiàn)象,而且玩“捉迷藏”,聯(lián)系不上本人。即便試圖去聯(lián)系借款人曾經(jīng)提供過的其他聯(lián)系人,但還是沒有辦法聯(lián)系到本人。這就進(jìn)入了所謂的“失聯(lián)”狀態(tài),使得催收人員也無從下手。那接下來的問題是,在失聯(lián)的情況下,我們有沒有辦法去挖掘跟借款人有關(guān)系的新的聯(lián)系人? 而且這部分人群并沒有以關(guān)聯(lián)聯(lián)系人的身份出現(xiàn)在我們的知識圖譜里。如果我們能夠挖掘出更多潛在的新的聯(lián)系人,就會大大地提高催收成功率。舉個例子,在下面的關(guān)系圖中,借款人跟李四有直接的關(guān)系,但我們卻聯(lián)系不上李四。那有沒有可能通過2度關(guān)系的分析,預(yù)測并判斷哪些李四的聯(lián)系人可能會認(rèn)識借款人。這就涉及到圖譜結(jié)構(gòu)的分析。
智能搜索及可視化展示
基于知識圖譜,我們也可以提供智能搜索和數(shù)據(jù)可視化的服務(wù)。智能搜索的功能類似于知識圖譜在Google, Baidu上的應(yīng)用。也就是說,對于每一個搜索的關(guān)鍵詞,我們可以通過知識圖譜來返回更豐富,更全面的信息。比如搜索一個人的身份證號,我們的智能搜索引擎可以返回與這個人相關(guān)的所有歷史借款記錄、聯(lián)系人信息、行為特征和每一個實體的標(biāo)簽(比如黑名單,同業(yè)等)。另外,可視化的好處不言而喻,通過可視化把復(fù)雜的信息以非常直觀的方式呈現(xiàn)出來, 使得我們對隱藏信息的來龍去脈一目了然。
精準(zhǔn)營銷
“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research
一個聰明的企業(yè)可以比它的競爭對手以更為有效的方式去挖掘其潛在的客戶。在互聯(lián)網(wǎng)時代,營銷手段多種多樣,但不管有多少種方式,都離不開一個核心 - 分析用戶和理解用戶。知識圖譜可以結(jié)合多種數(shù)據(jù)源去分析實體之間的關(guān)系,從而對用戶的行為有更好的理解。比如一個公司的市場經(jīng)理用知識圖譜來分析用戶之間的關(guān)系,去發(fā)現(xiàn)一個組織的共同喜好,從而可以有針對性的對某一類人群制定營銷策略。只有我們能更好的、更深入的(Deep understanding)理解用戶的需求,我們才能更好地去做營銷。
5. 挑戰(zhàn)
知識圖譜在工業(yè)界還沒有形成大規(guī)模的應(yīng)用。即便有部分企業(yè)試圖往這個方向發(fā)展,但很多仍處于調(diào)研階段。主要的原因是很多企業(yè)對知識圖譜并不了解,或者理解不深。但有一點可以肯定的是,知識圖譜在未來幾年內(nèi)必將成為工業(yè)界的熱門工具,這也是從目前的趨勢中很容易預(yù)測到的。當(dāng)然,知識圖譜畢竟是一個比較新的工具,所以在實際應(yīng)用中一定會涉及到或多或少的挑戰(zhàn)。
數(shù)據(jù)的噪聲
首先,數(shù)據(jù)中存在著很多的噪聲。即便是已經(jīng)存在庫里的數(shù)據(jù),我們也不能保證它有100%的準(zhǔn)確性。在這里主要從兩個方面說起。第一,目前積累的數(shù)據(jù)本身有錯誤,所以這部分錯誤數(shù)據(jù)需要糾正。 最簡單的糾正辦法就是做離線的不一致性驗證,這點在前面提過。第二, 數(shù)據(jù)的冗余。比如借款人張三填寫公司名字為”普惠“,借款人李四填寫的名字為”普惠金融“,借款人王五則填寫成”普惠金融信息服務(wù)有限公司“。雖然這三個人都隸屬于一家公司,但由于他們填寫的名字不同,計算機(jī)則會認(rèn)為他們?nèi)齻€是來自不同的公司。那接下來的問題是,怎么從海量的數(shù)據(jù)中找出這些存在歧義的名字并將它們合并成一個名字? 這就涉及到自然語言處理中的”消歧分析”技術(shù)。
非結(jié)構(gòu)化數(shù)據(jù)處理能力
在大數(shù)據(jù)時代,很多數(shù)據(jù)都是未經(jīng)處理過的非結(jié)構(gòu)化數(shù)據(jù),比如文本、圖片、音頻、視頻等。特別在互聯(lián)網(wǎng)金融行業(yè)里,我們往往會面對大量的文本數(shù)據(jù)。怎么從這些非結(jié)構(gòu)化數(shù)據(jù)里提取出有價值的信息是一件非常有挑戰(zhàn)性的任務(wù),這對掌握的機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,自然語言處理能力提出了更高的門檻。
知識推理
推理能力是人類智能的重要特征,使得我們可以從已有的知識中發(fā)現(xiàn)隱含的知識, 一般的推理往往需要一些規(guī)則的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”關(guān)系,“父親”的“父親”可以推理出“祖父”的關(guān)系。再比如張三的朋友很多也是李四的朋友,那我們可以推測張三和李四也很有可能是朋友關(guān)系。當(dāng)然,這里會涉及到概率的問題。當(dāng)信息量特別多的時候,怎么把這些信息(side information)有效地與推理算法結(jié)合在一起才是最關(guān)鍵的。常用的推理算法包括基于邏輯(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。隨著深度學(xué)習(xí)在人工智能領(lǐng)域的地位變得越來越重要,基于分布式表示方法的推理也成為目前研究的熱點。如果有興趣可以參考一下這方面目前的工作進(jìn)展【4,5,6,7】。
大數(shù)據(jù)、小樣本、構(gòu)建有效的生態(tài)閉環(huán)是關(guān)鍵
雖然現(xiàn)在能獲取的數(shù)據(jù)量非常龐大,我們?nèi)匀幻媾R著小樣本問題,也就是樣本數(shù)量少。假設(shè)我們需要搭建一個基于機(jī)器學(xué)習(xí)的反欺詐評分系統(tǒng),我們首先需要一些欺詐樣本。但實際上,我們能拿到的欺詐樣本數(shù)量不多,即便有幾百萬個貸款申請,最后被我們標(biāo)記為欺詐的樣本很可能也就幾萬個而已。這對機(jī)器學(xué)習(xí)的建模提出了更高的挑戰(zhàn)。每一個欺詐樣本我們都是以很高昂的“代價”得到的。隨著時間的推移,我們必然會收集到更多的樣本,但樣本的增長空間還是有局限的。這有區(qū)別于傳統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng),比如圖像識別,不難拿到好幾十萬甚至幾百萬的樣本。
在這種小樣本條件下,構(gòu)建有效的生態(tài)閉環(huán)尤其的重要。所謂的生態(tài)閉環(huán),指的是構(gòu)建有效的自反饋系統(tǒng)使其能夠?qū)崟r地反饋給我們的模型,并使得模型不斷地自優(yōu)化從而提升準(zhǔn)確率。為了搭建這種自學(xué)習(xí)系統(tǒng),我們不僅要完善已有的數(shù)據(jù)流系統(tǒng),而且要深入到各個業(yè)務(wù)線,并對相應(yīng)的流程進(jìn)行優(yōu)化。這也是整個反欺詐環(huán)節(jié)必要的過程,我們要知道整個過程都充滿著博弈。所以我們需要不斷地通過反饋信號來調(diào)整我們的策略。
6. 結(jié)語
知識圖譜在學(xué)術(shù)界和工業(yè)界受到越來越多的關(guān)注。除了本文中所提到的應(yīng)用,知識圖譜還可以應(yīng)用在權(quán)限管理,人力資源管理等不同的領(lǐng)域。在后續(xù)的文章中會詳細(xì)地講到這方面的應(yīng)用。
參考文獻(xiàn)
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】劉知遠(yuǎn) 知識圖譜——機(jī)器大腦中的知識庫 第二章 知識圖譜——機(jī)器大腦中的知識庫
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
四、《人工智能教育應(yīng)用》模塊一
模塊一:人工智能與教育(MOOC課程學(xué)習(xí)筆記)
一、了解AI的發(fā)展
1.什么是人工智能?
人工智能(Artificial Intelligence):包括人工和智能兩個方面,人工是合成的、人造的意思,智能分為思維流派,知識閾值流派,進(jìn)化流派。人工智能是一門自然科學(xué),社會科學(xué)的 交叉學(xué)科 ,綜合了信息、邏輯、思維、生物、心理、計算機(jī)、電子、語言機(jī)器人等學(xué)科?;A(chǔ)學(xué)科是數(shù)學(xué),指導(dǎo)學(xué)科是哲學(xué)??梢詮莫M義和廣義兩個角度來定義。 從狹義角度來說 ,人工智能是計算機(jī)學(xué)科的一個分支,是用計算機(jī)模擬或?qū)崿F(xiàn)的智能,研究如何使機(jī)器具有智能(特別是人類智能如何在計算機(jī)上實現(xiàn)或再現(xiàn))的科學(xué)與技術(shù)。 從廣義角度來說 ,人工智能是研究、開發(fā)用于模擬、延伸和拓展人和其他動物的智能,以及開發(fā)各種機(jī)器智能和智能機(jī)器的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的綜合性學(xué)科。
應(yīng)用:智能快遞服務(wù),智能規(guī)劃出行方案,題目拍照解析
2.人工智能的類型和流派?
根據(jù)人工智能是否能真正實現(xiàn)推理、思考和解決問題,把人工智能分為 弱人工智能 和 強(qiáng)人工智能 。
弱人工智能 :指不能制造出真正地推理和解決問題的智能機(jī)器,不真正擁有智能和自主意識,只專注于完成某個特定的任務(wù)。如搜索引擎、智能手機(jī)。
強(qiáng)人工智能 ::指真正能思維的智能機(jī)器,有知覺和自我意識。可分為類人,非類人。
人工智能可分為三個學(xué)派:符號主義學(xué)派(IBM深藍(lán)的國際象棋比賽)、聯(lián)結(jié)主義學(xué)派(谷歌kelipus相機(jī))、行為主義學(xué)派(谷歌機(jī)器狗)
3.人工智能發(fā)展階段
人工智能的發(fā)展階段大致可分為形成期、發(fā)展期、繁榮期。
形成期 (1956-1980):這一時期符號主義盛行。
1956年人工智能這個詞首次出現(xiàn)在達(dá)特茅斯會議上。約翰麥卡錫提出Artificial Intelligence一詞,這標(biāo)志著其作為一個研究領(lǐng)域的正式誕生。
1958年,有兩層神經(jīng)網(wǎng)絡(luò)的感知機(jī)被提出,他是當(dāng)時收個可以進(jìn)行機(jī)器學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)。
1965年,約翰麥卡錫幫助MIT退出來世界上第一個帶有視覺傳感器,能識別并定位積木的機(jī)器人系統(tǒng)。
1968年,美國斯坦福研究所研制的移動式機(jī)器人Shakey具備一定的人工智能:感知、環(huán)境建模、行為規(guī)劃、執(zhí)行任務(wù)。是世界上第一代機(jī)器人,拉開了第三代機(jī)器人研發(fā)的序幕。
1974-1980:受數(shù)學(xué)模型、生物原型、技術(shù)條件,人工智能停滯期。
發(fā)展期 (1980-2000):1980年,出現(xiàn)XCON的專家系統(tǒng),能按照用戶的需求,為計算機(jī)系統(tǒng)自動選擇組件,幫助美國數(shù)字公司節(jié)約大量費用。
1982-1986:約翰霍普菲爾德發(fā)明了Hopfield網(wǎng)絡(luò),是一種結(jié)合了存儲系統(tǒng)和二元系統(tǒng)的神經(jīng)網(wǎng)絡(luò),可以讓計算機(jī)以一種全新的方式處理信息。
1986年:BP反向傳播算法催生了聯(lián)結(jié)主義的發(fā)展。
1987-2000:再一次進(jìn)入低谷期。
繁榮期 (2000-):1997年:IBM深藍(lán)
2006年:辛頓提出深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)打破BP發(fā)展瓶頸。
2011年:沃森作為選手參加《危險邊緣》取勝。
2012年:卷積神經(jīng)網(wǎng)絡(luò),谷歌自動駕駛汽車
2013年:深度學(xué)習(xí)算法識別率高達(dá)99%
2016年:AlphaGo
2017年:AlphaGo Zero、索菲亞
二、AI的關(guān)鍵技術(shù)
4.什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)是一門涉及統(tǒng)計學(xué)、系統(tǒng)辨識、逼近理論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化理論、計算機(jī)科學(xué)、腦科學(xué)的交叉學(xué)科。研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能。核心是重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。
5.機(jī)器學(xué)習(xí)的分類?
(1)根據(jù) 學(xué)習(xí)方法 可分為 傳統(tǒng)機(jī)器學(xué)習(xí) 和 深度學(xué)習(xí)
傳統(tǒng)機(jī)器學(xué)習(xí) :從一些觀測樣本出發(fā),試圖發(fā)現(xiàn)不能通過原理分析獲得的規(guī)律,實現(xiàn)對未來數(shù)據(jù)行為或趨勢的準(zhǔn)確預(yù)測。主要特點是平衡了學(xué)習(xí)結(jié)果的有效性和學(xué)習(xí)模型的可解釋性,為解決有限樣本的學(xué)習(xí)問題提供了一種框架。主要用于有限樣本學(xué)習(xí)下的,模式分類、回歸分析、概率密度估計。應(yīng)用:自然語言處理、語音識別、圖像識別、信息檢索、生物信息。
深度學(xué)習(xí) :是建立深層結(jié)構(gòu)模型的學(xué)習(xí)方法。特點是多層神經(jīng)網(wǎng)絡(luò)。形成了卷積神經(jīng)網(wǎng)絡(luò)(用于空間性分布數(shù)據(jù))和循環(huán)神經(jīng)網(wǎng)絡(luò)兩類模型(用于時間性分布數(shù)據(jù))。
區(qū)別:案例分析:狗和貓等動物的識別。
傳統(tǒng)機(jī)器學(xué)習(xí)需要先定義相應(yīng)的面目特征,如有沒有胡須、耳朵、鼻子、嘴巴的模樣等,以此來進(jìn)行對象的分類識別。深度學(xué)習(xí)則會自動找出這個分類問題所需要的重要特征,并進(jìn)行對象識別。
(2)根據(jù) 學(xué)習(xí)模式 可分為 監(jiān)督學(xué)習(xí) 、 無監(jiān)督學(xué)習(xí) 、 強(qiáng)化學(xué)習(xí)
監(jiān)督學(xué)習(xí) :利用已標(biāo)記的有限訓(xùn)練數(shù)據(jù)集,通過某種學(xué)習(xí)策略建立一個模型,實現(xiàn)對新數(shù)據(jù)的分類。特點是要求訓(xùn)練樣本的分類標(biāo)簽已知。特點是不需要訓(xùn)練樣本和人工標(biāo)注數(shù)據(jù)。
無監(jiān)督學(xué)習(xí) :利用無標(biāo)記的有限數(shù)據(jù)描述隱藏在未標(biāo)記數(shù)據(jù)中的結(jié)構(gòu)或規(guī)律。
強(qiáng)化學(xué)習(xí) :也稱增強(qiáng)學(xué)習(xí),他是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使強(qiáng)化信號函數(shù)值最大。特點是沒有監(jiān)督者,只有一個反饋信息,反饋是延遲的,不是立即生成的。
(3)根據(jù) 算法特點 可分為 遷移學(xué)習(xí) 、 主動學(xué)習(xí) 、 演化學(xué)習(xí)
遷移學(xué)習(xí) :當(dāng)在某些領(lǐng)域無法取得足夠多的數(shù)據(jù)進(jìn)行模型訓(xùn)練時,利用另一領(lǐng)域數(shù)據(jù)獲得的關(guān)系進(jìn)行的學(xué)習(xí)。
主動學(xué)習(xí): 通過一定的算法查詢最有用的未標(biāo)記樣本,并交由專家進(jìn)行標(biāo)記,然后用查詢到的樣本訓(xùn)練分類模型來提高模型的精度。
演化學(xué)習(xí): 對優(yōu)化問題性質(zhì)要求極少,只需能夠評估解的好壞即可,適用于求解復(fù)雜的優(yōu)化問題,也可直接用于多目標(biāo)優(yōu)化。演化算法包括粒子群優(yōu)化算法、多目標(biāo)優(yōu)化算法。
6.什么是大數(shù)據(jù)?
大數(shù)據(jù) 是指包含搜集、保存、管理、分析在內(nèi)的動態(tài)的 數(shù)據(jù)集合 。特征是規(guī)模性、高速性、多樣性、價值性、真實性
在教育中的應(yīng)用:教育數(shù)據(jù)挖掘和學(xué)習(xí)分析
教育數(shù)據(jù)挖掘 是對學(xué)習(xí)行為和過程進(jìn)行量化、分析和建模,利用統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等方法來分析 教與學(xué)過程中所產(chǎn)生的所有數(shù)據(jù)。
學(xué)習(xí)分析技術(shù) 是對學(xué)習(xí)者及其學(xué)習(xí)環(huán)境的數(shù)據(jù)測量、收集和分析,從而理解和 優(yōu)化學(xué)習(xí)過程以及學(xué)習(xí)環(huán)境 。
7.什么是知識圖譜?
知識圖譜是一個將現(xiàn)實世界映射到數(shù)據(jù)世界,由節(jié)點和邊組成的語義網(wǎng)絡(luò)。其中節(jié)點代表物理世界的實體或概念,邊代表實體的屬性和他們之間的關(guān)系?,F(xiàn)實世界存在各種各樣的關(guān)系,知識圖譜就是合理擺放他們之間的關(guān)系。本質(zhì)上是一種語義網(wǎng)絡(luò),旨在描述客觀世界中的概念、實體、事件及其之間的關(guān)系。
從領(lǐng)域上來看可分為:通用知識圖譜和特定領(lǐng)域知識圖譜。
應(yīng)用:語義搜索、智能問答、可視化決策支持
教育領(lǐng)域的應(yīng)用:在智能教學(xué)系統(tǒng)中,利用知識圖譜技術(shù)挖掘與答案相關(guān)的知識點,為學(xué)習(xí)者提供更合適的導(dǎo)學(xué)建議。
7.什么是自然語言處理(Natural Language Process,nlp)?
自然語言處理是計算機(jī)科學(xué)、人工智能、語言學(xué)關(guān)注計算機(jī)和人類自然語言之間的相互作用的領(lǐng)域,研究能實現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信 的各種理論和方法。
8.自然語言的處理過程?
包括自然語言理解和自然語言生成兩個部分。
9.自然語言處理的研究領(lǐng)域?
研究領(lǐng)域十分廣泛,如:機(jī)器翻譯、語義理解、問答系統(tǒng)。文本分析(自動作文評價系統(tǒng))、推薦系統(tǒng)
10.自然語言處理面臨的四大挑戰(zhàn)?
詞法、句法、語義、語用和語音等不同層面存在不確定性;
新的詞匯、術(shù)語、語義和語法導(dǎo)致未知語音現(xiàn)象的不可預(yù)測性;
數(shù)據(jù)資源的不充分使其難以覆蓋復(fù)雜的語音現(xiàn)象;
語義知識的模糊性和錯綜復(fù)雜的關(guān)聯(lián)性難以用簡單的數(shù)學(xué)模型描述。
11.機(jī)器人技術(shù)
第一代機(jī)器人是程序控制機(jī)器人,它們能夠按照擬定程序進(jìn)行重復(fù)工作;
第二代機(jī)器人是自適應(yīng)機(jī)器人,自身配備相應(yīng)的感覺傳感器,能隨環(huán)境的變化而改變自己的行為,但還沒有達(dá)到完全自治的程度;
第三代機(jī)器人是智能機(jī)器人,它們帶有多種傳感器,能對感知到的信息進(jìn)行處理,控制自己的行為,具有很強(qiáng)的自適應(yīng)能力、學(xué)習(xí)能力和自治功能。
智能控制方法:專家控制、模糊控制、神經(jīng)網(wǎng)絡(luò)控制、專家遞階控制
12.什么是跨媒體智能?
跨媒體:文本、圖像、語音、視頻及其交互屬性將會緊密混合在一起。
跨媒體智能是實現(xiàn)機(jī)器認(rèn)知外部世界的基礎(chǔ)智能。(潘云鶴)
13.跨媒體智能的關(guān)鍵技術(shù)?
跨媒體智能檢索、跨媒體分析推理、跨媒體知識圖譜構(gòu)建、跨媒體智能存儲
14.跨媒體智能的應(yīng)用?
智能城市、醫(yī)學(xué)、教育領(lǐng)域(可穿戴技術(shù)、腦機(jī)接口。多模態(tài)的角度)
15.智能時代的教育挑戰(zhàn)?
挑戰(zhàn)一:如何培養(yǎng)具有AI素養(yǎng)的時代人才?
挑戰(zhàn)二:教育管理者如何重構(gòu)工作流程?
挑戰(zhàn)三:教師如何應(yīng)對人工智能帶來的沖擊?
挑戰(zhàn)四:教師如何應(yīng)用人工智能轉(zhuǎn)變教學(xué)方式?
挑戰(zhàn)五:學(xué)生如何運用人工智能技術(shù)轉(zhuǎn)變學(xué)習(xí)行為和方式?
挑戰(zhàn)六:智能時代課程內(nèi)容如何改造升級?
挑戰(zhàn)七:如何應(yīng)對人工智能教育中的倫理、社會及安全問題?
17.AI教育應(yīng)用的內(nèi)涵與特征?
智能教育:狹義的人工智能教育:以人工智能為內(nèi)容的教育,目的是培養(yǎng)掌握機(jī)器智能技術(shù)的專業(yè)化人才,以滿足技術(shù)發(fā)展的需要。廣義的智能教育:智能技術(shù)支持的教育、學(xué)習(xí)智能技術(shù)的教育、促進(jìn)智能發(fā)展的教育。
智慧教育:是在信息技術(shù)的支持下,為發(fā)展學(xué)生智慧能力而開展的教育,他強(qiáng)調(diào)構(gòu)建技術(shù)融合的學(xué)習(xí)環(huán)境,使教師能夠高效率的教學(xué)、使學(xué)生能夠個性化學(xué)習(xí)。
智能教育是技術(shù)使能的教育。智能技術(shù)不但讓學(xué)習(xí)環(huán)境更豐富、靈巧,也讓機(jī)器在某些方面具有類人甚至超人的智能。
智慧教育則是智慧教育理念引領(lǐng)的,先進(jìn)的智慧教育理念決定了智慧教學(xué)法的模態(tài),不同的模態(tài)需要教師具備相應(yīng)的教學(xué)技能,這些技能需要智能環(huán)境的支持才能得以實施。
18.人工智能在教育中的應(yīng)用的特征?
智能化
人工智能技術(shù)是促變教育信息化的核心技術(shù),具備轉(zhuǎn)變教與學(xué)方式的潛能。未來在教育領(lǐng)域?qū)性絹碓蕉嘀С纸膛c學(xué)的智能工具。智能教育將會給學(xué)習(xí)者帶來新的學(xué)習(xí)體驗,為教師實施高質(zhì)量的教學(xué)提供基礎(chǔ)。在教育信息技術(shù)支持下打造出教育信息生態(tài)系統(tǒng),將在線學(xué)習(xí)環(huán)境與現(xiàn)實情境無縫融合,使人機(jī)交互更加便捷智能,泛在學(xué)習(xí)、個性化學(xué)習(xí)將成為一種新常態(tài)。
人機(jī)協(xié)同
人機(jī)協(xié)同教育可以發(fā)揮教師與人工智能的不同優(yōu)勢,促進(jìn)學(xué)生的個性化發(fā)展。機(jī)器主要負(fù)責(zé)重復(fù)性、單調(diào)性、遞歸性的工作,教師負(fù)責(zé)創(chuàng)造性、情感性、啟發(fā)性的工作。
教學(xué)自動化
人工智能可直接應(yīng)用學(xué)科知識、教學(xué)法知識、學(xué)習(xí)者知識,實現(xiàn)知識傳播的自動化,因此可用于支持教育活動
個性化
為了擴(kuò)大教學(xué)規(guī)模、提高教學(xué)效率,傳統(tǒng)的教學(xué)組織采用班級授課制,類似于工廠批量化生產(chǎn),忽視了學(xué)生之間的個性化差異。人工智能時代的到來時教學(xué)組織方式趨向個性化教育成為可能。人工智能可分析每位學(xué)生的過程性學(xué)習(xí)數(shù)據(jù),精準(zhǔn)鑒別其知識水平、學(xué)習(xí)需求、個人愛好,并構(gòu)建學(xué)習(xí)者模型,據(jù)此實現(xiàn)個性化資源、學(xué)習(xí)路徑、學(xué)習(xí)服務(wù)的推送。這意味著批量化生產(chǎn)教育時代的終結(jié),個性化教育的開始。
跨學(xué)科融合
人工智能涉及多個學(xué)科領(lǐng)域,單一的學(xué)科教學(xué)已無法滿足社會發(fā)展的需求,跨學(xué)科融合教學(xué)受到推崇。為了適應(yīng)學(xué)生個性化發(fā)展,未來的教育更應(yīng)該培養(yǎng)學(xué)生多元的綜合性發(fā)展。以人工智能為核心,提供真實問題情境的項目實踐,側(cè)重激發(fā)、培養(yǎng)和提高學(xué)生的計算思維、創(chuàng)新思維和元認(rèn)知。
以上就是關(guān)于知識圖譜和圖神經(jīng)網(wǎng)絡(luò)相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
自學(xué)logo設(shè)計需要學(xué)什么(自學(xué)logo設(shè)計需要學(xué)什么知識)
包裝設(shè)計相關(guān)知識(包裝設(shè)計相關(guān)知識點)
設(shè)計游戲需要什么知識(設(shè)計游戲需要什么知識和技能)
設(shè)計公司資質(zhì)(設(shè)計公司資質(zhì)申請)
猜你喜歡
天貓行業(yè)銷售排名怎么查(天貓行業(yè)銷售排名怎么查的)
網(wǎng)絡(luò)計劃資源優(yōu)化的目的(網(wǎng)絡(luò)計劃資源優(yōu)化的目的是為了尋求)
wordpress付費用戶字段(wordpress免費用戶中心插件)
大數(shù)據(jù)分析軟件(數(shù)據(jù)分析的軟件)
如何查看抖音店鋪數(shù)據(jù)(如何查看抖音店鋪數(shù)據(jù)來源)
風(fēng)濕三項指標(biāo)(風(fēng)濕三項檢查結(jié)果怎么看)
信息技術(shù)和數(shù)學(xué)的關(guān)系(信息技術(shù)和數(shù)學(xué)的關(guān)系論文)