成视频年人黄网站视频福利_欧美日韩国产亚洲精品一级A片_国产精品香蕉成人网_亚洲欧美精品综合一区_亚洲成AV人综合在线观看

GPT-4充當(dāng)評(píng)測老師,效果驚艷,港中文(深圳)開源鳳凰、Chimera等大模型 環(huán)球速遞

來源: 商業(yè)新知網(wǎng)

來源: 機(jī)器之心

作者:鐘格非 (港中文深圳本科生)


(資料圖片僅供參考)

港中文(深圳)“鳳凰 “多語言大模型,中文效果逼近文心一言,多種語言開源 SOTA; 英文版”Chimera” 逼近 ChatGPT(GPT4 評(píng)測認(rèn)為其有 96% GPT 3.5 Turbo 效果),數(shù)據(jù)模型訓(xùn)練將全開源。

背景介紹

ChatGPT 和 GPT-4 的問世,被比爾?蓋茨譽(yù)為自 1980 年以來最大的科技革命。近日,相關(guān)技術(shù)和科研以 "天" 為單位快速迭代,每天都有新的類似 ChatGPT 的模型發(fā)布。其中包括 Alpaca、Vicuna、Dolly、Belle、Baize、 Guanaco 和 LuoTuo 等。

近期備受關(guān)注的是來自香港中文大學(xué)(深圳)和深圳市大數(shù)據(jù)研究院的王本友教授團(tuán)隊(duì)開發(fā)的 Phoenix(鳳凰) 和 Chimera 等開源大語言模型,其中文效果接近百度文心一言,GPT-4 評(píng)測達(dá)到了 97% 文心一言的水平,在人工評(píng)測中五成不輸文心一言。

此外,維護(hù) Phoenix 和 Chimera 大模型的 github 倉庫取名為 “LLM 動(dòng)物園”,其中還包括其他相關(guān)即將發(fā)布的模型,如醫(yī)療領(lǐng)域的華佗 GPT 模型(huatuogpt.cn)、法律 GPT 模型、多模態(tài)大模型和檢索增強(qiáng)的大模型等。具體請(qǐng)見其 Github 主頁的技術(shù)報(bào)告。

項(xiàng)目地址:https://github.com/FreedomIntelligence/LLMZoo

名字的哲學(xué):鳳凰和奇美拉

阻礙大模型發(fā)展最大的瓶頸是沒有足夠的候選名稱可用于命名語言模型,LLAMA、Guanaco、Vicuna 和 Alpaca 已經(jīng)被使用了,而且駱駝家族中已經(jīng)沒有更多的成員了。王本友教授團(tuán)隊(duì)將多語言的大模型命名為 “鳳凰”。在中國文化中,“鳳凰” 通常被視為鳥類之王的象征。正如成語所說,“百鳥朝鳳”,表明它能夠與說不同的語言的鳥類溝通,稱鳳凰為能夠理解和說出數(shù)百種(鳥類)語言的模型。更重要的是,“鳳凰” 是 “香港中文大學(xué)(深圳)”(CUHKSZ)的圖騰,開發(fā)團(tuán)隊(duì)來自這個(gè)高校。

專門針對(duì)拉丁語的 “鳳凰” 版本被稱為 “奇美拉”。奇美拉是希臘神話中類似的混合生物,由來自利基亞和小亞細(xì)亞的不同動(dòng)物部分組成。鳳凰和奇美拉分別代表了東方和西方文化的傳說生物。將它們放在一個(gè)動(dòng)物園里,以期望東西方人民之間共同協(xié)作,來平民化 ChatGPT,共同打破 Open (close) AI 的 AI 霸權(quán)。

鳳凰的技術(shù)特點(diǎn)

Phoenix 模型有兩點(diǎn)不同之處:

(1)微調(diào)技藝:指令式微調(diào)與對(duì)話式微調(diào)的完美結(jié)合

Phoenix 模型在后訓(xùn)練階段精妙地融合了基于指令的微調(diào)(Instruction-based tuning)與基于對(duì)話的微調(diào)(Conversation-based tuning),實(shí)現(xiàn)了兩者優(yōu)勢的有機(jī)互補(bǔ)。這一結(jié)合使 Phoenix 模型在處理各類問題時(shí)具有更高的靈活性和應(yīng)變能力。以 Alpaca 為代表的基于指令微調(diào)方法能夠使得語言模型嚴(yán)格遵循人類指令,有效滿足用戶的信息需求;以 Vicuna 為代表的基于對(duì)話的微調(diào)方法則能夠提升模型與用戶自然交流的能力,提升用戶的對(duì)話交互體驗(yàn)。鳳凰模型將兩者結(jié)合,不僅提高了模型的實(shí)用性,更增強(qiáng)了其在各種應(yīng)用場景的競爭力。

(2)駕馭多語言:四十余種語言的全球化視野

Phoenix 模型堅(jiān)持擁抱全球化視野,在預(yù)訓(xùn)練(Pre-training)與后訓(xùn)練(Post-training)階段均廣泛運(yùn)用多種語言的訓(xùn)練數(shù)據(jù)。這使得 Phoenix 模型在多語言場景下表現(xiàn)出色,能夠滿足全球使用者的需求。在預(yù)訓(xùn)練階段, Phoenix 模型采用 BLOOM 作為基座模型,相較于僅使用拉丁語系數(shù)據(jù)訓(xùn)練的 LLaMA 模型, BLOOM 模型在包括拉丁語系和非拉丁語系的多種語言訓(xùn)練數(shù)據(jù)上訓(xùn)練而成,因此將其作為基座的鳳凰模型對(duì)于非拉丁語系用戶更加友好。在后訓(xùn)練階段,鳳凰模型的指令數(shù)據(jù)集和對(duì)話數(shù)據(jù)集都涵蓋了超過 40 種語言的訓(xùn)練數(shù)據(jù),進(jìn)一步拓展了其多語言的支持能力。因此,鳳凰模型不僅在英漢語言上表現(xiàn)卓越,還在已評(píng)測的十余種語言中,相較于其他開源模型具備顯著優(yōu)勢。

實(shí)驗(yàn)結(jié)果

中文

團(tuán)隊(duì)成員采用與 Vicuna 一致的評(píng)測方式,即使用 GPT-4 作為評(píng)估模型,對(duì)鳳凰模型在多種語言中的性能表現(xiàn)進(jìn)行了自動(dòng)評(píng)估。圖中展示了 Phoenix 在中文語境下與流行的中文模型的對(duì)比結(jié)果。Phoenix 超其他流行的中文開源模型(包括 BELLE -7B 和 Chinese-Alpaca-13B 等)。這表明,盡管 Phoenix 是一個(gè)多語言的模型,但在所有開源的中文模型中,它實(shí)現(xiàn)了 SOTA 級(jí)別的性能。與其他開源的模型相似,Phoenix 面對(duì) ChatGPT 和文心一言等閉源大規(guī)模語言模型時(shí)略顯遜色(ChatGLM-6B 未開放數(shù)據(jù)和訓(xùn)練細(xì)節(jié),只開源了權(quán)重,暫歸為半閉源模型家族),但在效果上已能媲美百度開發(fā)的文心一言,人工評(píng)估中近三成例子比文心一言的輸出更好。

多語言

除了中文,Phoenix 在多種語言上表現(xiàn)優(yōu)異,包括但不限于西班牙語、法語、葡萄牙語、阿拉伯語、日語和韓語,涵蓋了拉丁語系和非拉丁語系的多種語言。這是因?yàn)?Phoenix 在預(yù)訓(xùn)練階段的基座模型、后訓(xùn)練階段的指令式微調(diào)和對(duì)話式微調(diào)三個(gè)方面都采用了多語言的訓(xùn)練數(shù)據(jù),使得其成為真正意義上的第一個(gè)多語言開源類 ChatGPT 大模型,為非拉丁語系的人群帶來福音。特別地,Phoenix 模型的基座采用 BLOOM 模型,對(duì)商用更加友好,對(duì)普及 ChatGPT 至世界各個(gè)角落,特別是 OpenAI 限制的國家具有顯著意義。想象一下,像燈泡和疫苗等現(xiàn)代科技產(chǎn)品都普及到了幾乎所有發(fā)展中國家,劃時(shí)代的 ChatGPT 同樣應(yīng)惠及全球所有人口,這正是 "democratize ChatGPT" 浪潮的應(yīng)有之意。

英文

英文方面,在使用 GPT-4 進(jìn)行評(píng)測時(shí),Phoenix-7B 模型的表現(xiàn)超過了 Vicuna-7B 和 ChatGLM-6B,但略遜于 Vicuna-13B。造成這種差距的原因可能有多方面,一方面是模型大小僅為 Vicuna-13B 的一半;另一方面,作者認(rèn)為 Phoenix 是在多語言環(huán)境下訓(xùn)練的,因此額外支付了 “多語言稅”(multi-lingual tax),導(dǎo)致其主語言(英語)的表現(xiàn)不如專門針對(duì)拉丁語言(英文屬于拉丁語言)的 Vicuna-13B。

為了抵消多語言稅的影響,作者將多語言的基座模型(BLOOM)替換為僅包含拉丁語言的 LLaMA 模型,以測試其在拉丁語系,特別是英語上的表現(xiàn)。這個(gè)拉丁語言版的 Phoenix,被稱為 “Chimera”(奇美拉)。再次使用 GPT-4 進(jìn)行測試,Chimera 的表現(xiàn)達(dá)到了 96.6% 的 ChatGPT 水平,略超過 Vicuna-13B 和 BARD 等模型。

人工評(píng)測

雖然上述的自動(dòng)評(píng)測方法源自 Vicuna 的評(píng)測方式,即用 GPT-4 作為評(píng)估模型進(jìn)行評(píng)測,但是使用的評(píng)測數(shù)據(jù)無論是類型還是數(shù)量都是偏少的。出于對(duì)評(píng)估可靠性的進(jìn)一步考慮,香港中文大學(xué)(深圳)的團(tuán)隊(duì)采用人工評(píng)測的方式來評(píng)估中文大模型。人工評(píng)測的結(jié)果與 GPT-4 在中文大模型評(píng)測的結(jié)果高度一致。人工評(píng)估效果順序?yàn)椋篊hatGPT、ChatGLM-6B、文心一言、鳳凰、BELLE 和 Chinese-LLaMA-Alpaca -- 這與 GPT 4 的評(píng)測一樣。這也是首次將 GPT-4 的結(jié)果與人工評(píng)估結(jié)果進(jìn)行比較的研究。

綜上所述,Phoenix 和 Chimera 等開源大語言模型在中文和多種語言環(huán)境下都展現(xiàn)出了優(yōu)異的表現(xiàn),無論是在中文開源模型中還是在拉丁語系中。這些模型的發(fā)展將有助于推動(dòng) ChatGPT 技術(shù)在全球范圍內(nèi)的普及,讓更多人受益于這一劃時(shí)代的科技成果。

相關(guān)新聞
歷史上的今天:卓別林誕辰

1889年4月16日,喜劇大師卓別林,出生于英國倫敦南部地區(qū)的一個(gè)演藝家庭。卓別林幼時(shí)貧困,很長一段時(shí)間是流浪兒,在孤兒院、孤兒學(xué)校等地方生

Copyright   2015-2022 華中電力網(wǎng) 版權(quán)所有  備案號(hào):京ICP備12018864號(hào)-26   聯(lián)系郵箱:2 913 236 @qq.com