-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 營(yíng)銷推廣 > 專題列表 > 正文
可以“作為醫(yī)生”的 GPT-3,究竟是炒作還是名副其實(shí)?
作者 |Anne-Laure Rousseau, MD,Clément Baudelaire,Kevin Riera
譯者 | 彎月,責(zé)編 | 鄭麗媛
頭圖 | CSDN 下載自東方 IC
出品 | CSDN(ID:CSDNnews)
以下為譯文:
這個(gè)夏天你一定聽說(shuō)過(guò)GPT-3,這個(gè)AI圈內(nèi)的超級(jí)網(wǎng)紅。GPT-3出自O(shè)penAI之手,而OpenAI是世界頂級(jí)的AI研究實(shí)驗(yàn)室之一,由Elon Musk、Sam Altman以及其他人于2015年底成立,后來(lái)還獲得了微軟高達(dá)10億美元的注資。
此外,你可能還聽說(shuō)過(guò)醫(yī)療領(lǐng)域正在經(jīng)歷AI革命,這要?dú)w功于自動(dòng)診斷、醫(yī)療文檔以及藥物發(fā)現(xiàn)等領(lǐng)域的可喜成果。有些人聲稱在某些工作上AI的算法超過(guò)了醫(yī)生,甚至有人宣布機(jī)器人即將斬獲自己的醫(yī)學(xué)學(xué)位!雖然諸多流言蜚語(yǔ)聽起來(lái)頗有些牽強(qiáng),但是GPT-3會(huì)不會(huì)成為他們口中的機(jī)器人呢?
我們是一個(gè)由多學(xué)科醫(yī)生和機(jī)器學(xué)習(xí)工程師打造而成的團(tuán)隊(duì),此次我們有幸能夠測(cè)試一下這種新模型,通過(guò)探索不同的醫(yī)療案件來(lái)搞清楚:可以作為醫(yī)生的GPT-3究竟是炒作還是真的有實(shí)力。
規(guī)模龐大的GPT-3
在機(jī)器學(xué)習(xí)領(lǐng)域內(nèi),像GPT-3這樣的語(yǔ)言模型只是根據(jù)前面給定的單詞(又稱為上下文)來(lái)預(yù)測(cè)句子中的下一個(gè)單詞。這是一種超強(qiáng)的自動(dòng)補(bǔ)齊系統(tǒng),類似于你在寫郵件時(shí)使用的系統(tǒng)。初看之下,能夠預(yù)測(cè)句子中的下一個(gè)單詞似乎很簡(jiǎn)單,但實(shí)際上許多了不起的項(xiàng)目都是以該項(xiàng)技術(shù)為基礎(chǔ),例如聊天機(jī)器人、自動(dòng)翻譯以及常見問題解答等。
截止到目前,GPT-3是有史以來(lái)訓(xùn)練復(fù)雜度最高的語(yǔ)言模型,共有1,750億個(gè)參數(shù),如此多的神經(jīng)網(wǎng)絡(luò)結(jié)點(diǎn)需要經(jīng)過(guò)數(shù)周密集的云計(jì)算微調(diào)后,才能讓這個(gè)AI發(fā)揮神奇的作用。雖然這個(gè)參數(shù)量非常龐大,但遠(yuǎn)不及人腦在推理、感知以及情感能力方面的數(shù)百萬(wàn)億(甚至千萬(wàn)億)神經(jīng)突觸。
由于規(guī)模龐大,GPT-3可直接用于新任務(wù)以及簡(jiǎn)短的演示,而無(wú)需針對(duì)特定數(shù)據(jù)進(jìn)行進(jìn)一步的微調(diào)。這意味著該模型只需學(xué)習(xí)幾個(gè)最初的示例,就可以成功地理解需要執(zhí)行的任務(wù)。與之前簡(jiǎn)單的語(yǔ)言模型相比,此屬性有很大的改進(jìn),而且更接近人類的實(shí)際行為,比如我們并不需要成千上萬(wàn)的例子來(lái)區(qū)分貓和狗。
由于數(shù)據(jù)來(lái)源混雜,從各種基本的書籍到整個(gè)互聯(lián)網(wǎng),從維基百科到《紐約時(shí)報(bào)》,因此GPT-3的訓(xùn)練數(shù)據(jù)有明顯的偏差,但它在將自然語(yǔ)言轉(zhuǎn)換為網(wǎng)站,創(chuàng)建基本的財(cái)務(wù)報(bào)告,破解語(yǔ)言謎題,乃至生成吉他指法等方面都有出色的表現(xiàn)。那么,在醫(yī)療保健領(lǐng)域又如何呢?
免責(zé)聲明正如Open AI在GPT-3準(zhǔn)則中的警告,醫(yī)療保健“屬于高風(fēng)險(xiǎn)范疇,因?yàn)槿藗円揽繙?zhǔn)確的醫(yī)療信息做出生死攸關(guān)的決定,任何錯(cuò)誤都有可能導(dǎo)致嚴(yán)重的傷害?!贝送?,診斷醫(yī)療或精神疾病在該模型中屬于“不支持使用”。盡管如此,此次我們還是決定試一試,看看該模型在以下醫(yī)療領(lǐng)域的使用情況,下面我們從醫(yī)學(xué)的角度出發(fā),按照敏感度從低到高將各項(xiàng)工作大致分為:
● 管理員與患者聊天
● 醫(yī)療保險(xiǎn)查詢
● 心理健康支持
● 醫(yī)療文件
● 醫(yī)學(xué)問答
● 醫(yī)學(xué)診斷
此外,我們還研究了該模型的某些參數(shù)對(duì)答案的影響(含精彩的內(nèi)幕揭秘)!
GPT-3,下一代私人醫(yī)療助理?我們的第一項(xiàng)測(cè)試表明,似乎GPT-3可用于基本的管理任務(wù),例如預(yù)約管理。但是當(dāng)深入研究時(shí),我們發(fā)現(xiàn)該模型對(duì)時(shí)間沒有清晰的了解,也沒有任何恰當(dāng)?shù)倪壿嫛S袝r(shí)它的記憶力明顯不足,如下圖所示,在處理預(yù)約的時(shí)候,患者曾明確表示下午6點(diǎn)之后沒空,但GPT-3還是推薦了下午7點(diǎn)。
在醫(yī)療保險(xiǎn)查詢方面表現(xiàn)如何呢?與上述管理任務(wù)類似,GPT-3可以幫助護(hù)士或患者從長(zhǎng)篇大論中快速找到某條信息,比如找到特定檢查項(xiàng)目的保險(xiǎn)條例。但在如下示例中,我們?yōu)樵撃P统噬狭碎L(zhǎng)達(dá)4頁(yè)的保險(xiǎn)條款列表,其中X射線檢查需要自付10美元,MRI檢查需要自付20美元。我們提出了兩個(gè)問題,GPT-3可以準(zhǔn)確地告知患者X射線檢查的價(jià)格,但未能匯總出多項(xiàng)檢查的總金額??梢奊PT-3缺乏基本的推理能力。
通過(guò)回收電子產(chǎn)品緩解壓力!當(dāng)你坐在客廳的沙發(fā)上,放松休息并與GPT-3交談時(shí),它會(huì)傾聽患者的問題,甚至提出一些可行的建議。這可能是GPT-3在醫(yī)療保健中最出色的用例之一。而實(shí)際上,1966年的Eliza算法僅通過(guò)模式匹配就實(shí)現(xiàn)了像人類一樣的行為,所以GPT-3的成果也并不足為奇。
GPT-3與Eliza的關(guān)鍵區(qū)別在于,Eliza這類基于規(guī)則的系統(tǒng)能夠完全控制計(jì)算機(jī)的響應(yīng)。換句話說(shuō),我們確信這類系統(tǒng)不會(huì)給出任何可能對(duì)患者有害的說(shuō)法。
然而,不幸的是與Eliza相反,在如下示例中,GPT-3卻建議患者自殺……
此外,該模型還可能提出意想不到的答案,比如它會(huì)建議患者多多回收電子產(chǎn)品,以緩解壓力,雖然理由比較牽強(qiáng),但也非常有道理!
醫(yī)療文件GPT-3在總結(jié)和簡(jiǎn)化文字方面的表現(xiàn)非常出色,這非常有利于幫助患者理解滿篇專業(yè)術(shù)語(yǔ)的醫(yī)學(xué)報(bào)告,或是幫助醫(yī)生快速了解患者悠久的病史。不過(guò),GPT-3還不能完全勝任這項(xiàng)工作(至少目前還不行)。我們的測(cè)試表明,GPT-3得出的結(jié)果過(guò)于簡(jiǎn)單,難以建立因果關(guān)系,而且還缺乏基本的演繹推理。
醫(yī)療問答:不及Google在尋找特定的科學(xué)信息、藥物劑量或處方支持時(shí),我們的實(shí)驗(yàn)表明,GPT-3不夠可靠,不足以作為醫(yī)生可信賴的支持工具使用。因?yàn)檫@存在一個(gè)嚴(yán)重的問題:GPT-3經(jīng)常會(huì)給出內(nèi)容錯(cuò)誤但語(yǔ)法正確的答案,而且不會(huì)提供任何文獻(xiàn)引用供醫(yī)生核對(duì)。在急診科忙碌的醫(yī)生看到這般語(yǔ)法合理的語(yǔ)句時(shí),很容易錯(cuò)誤地將其當(dāng)作有效的醫(yī)學(xué)陳述。例如,下面的第一個(gè)答案是正確的,但第二個(gè)答案不正確。
診斷:風(fēng)險(xiǎn)自負(fù)診斷是一個(gè)更為復(fù)雜的問答任務(wù):輸入癥狀,然后獲得有可能解釋這些癥狀的潛在條件。最新的癥狀檢查系統(tǒng)(Babylon、Ada、KHealth等)雖然不夠完善,但完勝GPT-3,因?yàn)樗鼈兌坚槍?duì)醫(yī)療診斷經(jīng)過(guò)了精心優(yōu)化。這些系統(tǒng)的優(yōu)勢(shì)在于,它們可以輸出不同的診斷結(jié)果以及相應(yīng)的概率,對(duì)于醫(yī)生來(lái)說(shuō)這是一種置信度的測(cè)量。而如下GPT-3得出的第一個(gè)診斷結(jié)果忽略了這個(gè)有發(fā)燒癥狀的小女孩可能患有篩竇炎,而且還莫名地提到了“皮疹”。
在另一項(xiàng)測(cè)試中,GPT-3忽略了肺栓塞。幸運(yùn)的是,沒有人因此死亡!
內(nèi)幕揭秘正如其他人所觀察到的那樣,GPT-3輸出的質(zhì)量很大程度上取決于其使用的種子詞匯,以兩種不同方式提出同一個(gè)問題也可能得到差異非常大的兩個(gè)答案。此外,該模型的各種參數(shù)(例如溫度參數(shù)和top P參數(shù))也起著重要作用。溫度參數(shù)和top P參數(shù)控制著該引擎所呈現(xiàn)答案的風(fēng)險(xiǎn)和創(chuàng)造力。
溫度參數(shù)在不同的溫度參數(shù)設(shè)定下,對(duì)于同一個(gè)問題,我們得到了兩個(gè)截然相反的答案。如下是當(dāng)溫度參數(shù)T = 0.9時(shí)得出的答案。
相比之下,在溫度參數(shù)極低的情況下(T = 0),相似種子永遠(yuǎn)會(huì)給出完全相同且非常直接的答案。
頻率懲罰參數(shù)與存在懲罰參數(shù)
此外,我們還應(yīng)注意頻率懲罰參數(shù)與存在懲罰參數(shù),二者既能防止單詞重復(fù)又能防止主題重復(fù)。在醫(yī)學(xué)上,直觀地來(lái)講我們應(yīng)盡可能降低這兩個(gè)參數(shù),因?yàn)檫^(guò)于生硬的主題切換可能引發(fā)混亂,而且重復(fù)實(shí)際上相當(dāng)有用。然而,通過(guò)比較人類兩次提出的同一個(gè)問題,我們可以清楚地看到,具有重復(fù)懲罰的模型更富有同情心且更友好,而另一種設(shè)定則看起來(lái)比較冷漠且對(duì)于人類來(lái)說(shuō)重復(fù)過(guò)多。下面是一個(gè)沒有懲罰的例子。
而下面則是一個(gè)懲罰滿格的例子:
總結(jié)
正如OpenAI所警告的那樣,距離GPT-3真正在醫(yī)療保健領(lǐng)域大展拳腳,我們還有很長(zhǎng)一段的路要走。由于GPT-3的訓(xùn)練方式,它缺乏科學(xué)和醫(yī)學(xué)領(lǐng)域的專業(yè)知識(shí),因此尚不能勝任醫(yī)學(xué)文獻(xiàn)記錄、診斷支持、給出治療建議或回答醫(yī)生問題等工作。雖然GPT-3可能給出正確的答案,但也很有可能給出非常錯(cuò)誤的答案,這種不一致在醫(yī)療保健領(lǐng)域中是站不住腳的。即使對(duì)于翻譯或總結(jié)醫(yī)學(xué)術(shù)語(yǔ)等管理任務(wù),GPT-3的發(fā)展前景雖然良好,但距離真正為醫(yī)生提供支持還需要付出很大的努力。在目前這個(gè)階段,與采用一種雄心勃勃的通用模型相比,采用多個(gè)經(jīng)過(guò)專項(xiàng)任務(wù)訓(xùn)練的監(jiān)管模型更為有效。
話雖如此,GPT-3的聊天模塊似乎已做好準(zhǔn)備鞠躬盡瘁,為醫(yī)生減輕重?fù)?dān)。在結(jié)束了一天的忙碌之后,坐下來(lái)與私人醫(yī)療助手開懷暢談,可以為你洗去一天的塵埃,拋去一天的勞累。
此外,毫無(wú)疑問,從整體上來(lái)看語(yǔ)言模型也將得到快速改善,這不僅會(huì)對(duì)上述用例產(chǎn)生積極的影響,而且也會(huì)影響到其他重大問題,例如信息結(jié)構(gòu)與規(guī)范化或自動(dòng)咨詢匯總等。
原文:https://www.nabla.com/blog/gpt-3/
本文為 CSDN 翻譯,轉(zhuǎn)載請(qǐng)注明來(lái)源出處。
點(diǎn)分享
推薦閱讀:
可以搜索關(guān)鍵詞的網(wǎng)站(可以搜索關(guān)鍵詞的網(wǎng)站推薦)
名師工作室可以加入幾個(gè)(名師工作室可以加入幾個(gè)班)
長(zhǎng)尾詞挖掘免費(fèi)工具(免費(fèi)的關(guān)鍵詞挖掘工具)
問大家
成都錦江區(qū)最專業(yè)上市會(huì)可以給個(gè)聯(lián)系方式嗎?路過(guò)的老司機(jī)們聊一聊
抖音在法國(guó)可以直播嗎?法國(guó)如何開通抖音海外直播?
濟(jì)南哪個(gè)婚介服務(wù)中心比較好?專業(yè)正規(guī)些的,地址可以說(shuō)一下嗎?
財(cái)務(wù)審計(jì)報(bào)告多少錢一份,審計(jì)報(bào)告多久可以做好
成都錦江區(qū)正式的啟動(dòng)儀式可以給個(gè)聯(lián)系方式嗎?各位老鄉(xiāng)們請(qǐng)回復(fù)下
抖音在馬來(lái)西亞可以直播嗎?馬來(lái)西亞如何開通抖音海外直播?方法
抖音在德國(guó)可以直播嗎?德國(guó)如何開通抖音海外直播?
2022年一個(gè)抖音號(hào)可以綁幾個(gè)小店?
山東省濟(jì)南市哪家婚姻介紹所專業(yè)正規(guī)且服務(wù)好?成功率高?