觀點:MosaicML 推出 30B 模型 — 挑戰 LLaMA、Falcon 和 GPT
MosaicML正在推出其第二個開源大型語言模型(LLM),稱為MPT-30B,這是繼五月份首次推出的較小的MPT-7B模型之后。
為了討論新模型及其對開發人員的意義,我采訪了MosaicML聯合創始人兼首席執行官Naveen Rao。他之前的創業公司是Nervana,這是一家深度學習公司,于2016年被英特爾收購,所以他最近在人工智能行業并不重要。
顧名思義,MPT-30B是一個300億參數模型。該公司聲稱它在質量上超過了OpenAI的GPT-3,盡管其參數數量約為1/6(GPT-3有1750億個)?!斑@意味著MPT-30B更容易在本地硬件上運行,并且部署推理的成本要低得多,”該公司表示。
(相關資料圖)
MosaicML vs. LLaMA 和 Falcon
MPT-30B比其他模型(包括GPT-3,LLaMA和Falcon(每個2,000個令牌)在更長的序列(最多8,000個令牌)上進行訓練。根據MosaicML的說法,“它旨在在實踐中處理更長的序列,使其非常適合數據密集型企業應用程序。
實際上,這意味著用戶可以輸入更長的提示。事實上,MosaicML之前的7B參數模型帶有一個微調選項,稱為MPT-7B-StoryWriter-65k+,具有巨大的65,000“上下文長度”。
“更長的上下文[長度]意味著更靈活的用法,”Rao說。“我們將有微調的版本,特別適合寫散文——寫更長的輸出。
MosaicML平臺;通過其公司博客
Rao想要強調的另一個區別是它的注意力機制。當谷歌在2017年發表其著名的關于變壓器技術的論文《注意力是你所需要的一切》(Attention Is All You Need)時,它指出,“多頭自我注意”是為AI提供突破的訓練機制(OpenAI隨后借用這一見解來構建GPT)。
“注意力是變壓器模型的內在部分,”Rao解釋道。“這實際上使他們能夠看到一個句子,一個段落或整個文本語料庫的聯系。
Rao 告訴我,MosaicML 使用了一種名為“閃光注意力”的技術,這是 2022 年一篇學術論文的主題。
“它使你能夠更快地進行推理和訓練 - Falcon和LLaMA都沒有這個,”他說?!耙虼耍瑥挠嬎愕慕嵌葋砜?,我們的方法實際上效率更高。
Rao補充說,新模型更適合企業使用,因為它“大小合適”以“適應實際硬件的限制”。他指出,深度學習GPU通常使用40-80千兆字節的內存。根據Rao的說法,開源的Falcon LLM正在與這種限制作斗爭。
“奇怪的是,他們發布的獵鷹模型是一個400億參數模型。這不太適合 80 GB GPU,因為它正好靠在邊緣。
他補充說,它自己的300億個參數模型更小,以便更好地針對GPU進行優化?!八]有真正損害我們的性能,它將讓你非常輕松地適應80-gGPU,”他說。
Rao聲稱其新的30B參數模型在性能上也優于LLaMA和Falcon。
“由于我們的效率方法,我們實際上訓練的計算比LLaMA和Falcon少。所以訓練實際上要便宜得多。但我們基本上是平價的。這取決于評估指標——比如,對于編碼,這個模型實際上比這兩個模型做得更好。在其他事情上,情況更糟。
當然,LLaMA和Falcon背后的人可能會對此提出異議。但是很難獨立驗證MosaicML的說法,因為Rao談到的三個開源LLM項目(MosaicML,LLaMA或Falcon)都沒有使用斯坦福大學的HELM措施進行測試。
MosaicML vs. OpenAI
那么MosaicML的模型與OpenAI的GPT-4相比如何呢?Rao 承認 GPT-4 在大多數方面的能力方面都更勝一籌。然而,他重申,MosaicML的模型提供了更長的上下文長度,這允許獨特的用例 - 例如生成F. Scott Fitzgerald的著名小說“了不起的蓋茨比”的尾聲。(題外話:作為一名前英國文學專業的學生,這是我最不想從法學碩士那里得到的東西!
Rao說,像GPT-4這樣的大型模型的主要挑戰是運行它們的高成本,這使得大多數企業都不切實際。MosaicML還專注于為具有特定數據(包括敏感數據)的公司提供服務,以微調其特定行業的模型。
在用例方面,Rao解釋說,醫療保健和銀行業等行業可以從MosaicML解釋和匯總大量數據的能力中受益。例如,在醫學領域,該模型可以解釋實驗室結果,并通過分析各種輸入來提供對患者病史的見解。
Rao強調了開源模型在這些場景中的重要性,因為健康(或實際上是財務)數據的本質需要在防火墻后面進行安全處理,而不是通過API將其發送給OpenAI之類的公司。
開發人員如何使用 MosaicML
我問開發人員如何開始使用MosaicML的平臺。Rao回答說,MosaicML提供了各種選擇,具體取決于開發人員的需求和專業知識。對于簡單的集成,他們提供了一個類似于其他公司(如OpenAI)的API,允許開發人員輕松地將MosaicML的模型整合到他們的前端應用程序中。他聲稱,與其他提供商的類似規模的模型相比,MosaicML的模型更具成本效益。
開發人員還可以選擇通過使用自己的數據對其進行微調來自定義 MosaicML 模型。他們可以下載模型、進行修改,并使用自定義版本創建自己的 API。
對于擁有大量數據的高級開發人員,Rao表示,MosaicML的工具可用于從頭開始預訓練自定義模型,并使用MosaicML的平臺為它們提供服務。
然后我問了MosaicML與流行的第三方工具(如LangChain)的兼容性。
“你通過LangChain獲得的所有工具都可以與我們的API一起使用,”他回答道。“真正酷的是,您可以在與我們一起構建的自定義模型之上使用這些工具。因此,我們基本上在定制方面為開發人員提供了令人難以置信的能力——甚至擁有整個模型。您進入該模型的所有數據(權重,所有內容)都歸您所有,因此可以完全自定義。這就是我們實現的目標。有了這些API提供商(如OpenAI),你得到的是你所得到的——零定制。
團隊開源
盡管在我們的采訪中談到了LLaMA和Falcon,但最終Rao認為他們都在同一個團隊中 - 而像OpenAI這樣的專有平臺才是真正的競爭對手。
“這使權力回到了企業開發人員手中,”他說,關于開源LLM,“將所有這些放在一個集中的地方,在那里你可以得到你得到的東西,這是一個很大的負面結果。
他還堅持認為,開源LLM正在“縮小與這些閉源模型的差距”。他承認,也許還沒有完全,但他認為開放的LLM已經“跨越了這些模型實際上非常有用的門檻”。
MosaicML推出30B模型 - 接受LLaMA,Falcon和GPT的帖子首先出現在The New Stack上。
關鍵詞:
相關閱讀
-
觀點:MosaicML 推出 30B 模型 — ...
...
美蘭空港(00357)早盤再跌超7%,年內累計跌幅超55%。截至發稿,跌6 53% -
新年送男生什么禮物?邪惡而愉快的“Hoc...
女巫們太棒了!在有人第一次點燃黑色火焰二十九年后,令人愉快的邪 -
全球熱消息:流暢吃雞、加錢升級?買顯...
流暢吃雞、加錢升級?買顯卡小心被這三種話術騙了 -
張藝謀首部電視劇籌拍,趙麗穎搭檔張嘉...
如今作品產出量最高的一位名導就是張藝謀,平均每年都有一部大熒幕作品 -
人從眾!端午假期 預計1億人次出行!
多地出行人數超越2019年,短途游成主角,消費復蘇正在上演!詳情 -
比212個足球場還要大!杭州有一座小島,...
端午假期去哪兒玩?不妨去逛逛湘花島。格桑花、月見草、硫華菊、藍色矢 -
環球即時:周公解夢:夢見這4件事情,近...
夢見小孩受傷,感到憂愁,如果孩子是自己的子女,預示可能要有變故或疾 -
天天熱文:非洲觀察丨美元霸權危害非洲...
非洲國家的高通脹、貨幣貶值的數據不斷刷新紀錄,一些國家甚至出現 -
“泰坦”號深海潛水器發生內爆
美國海岸警衛隊22日說,此前在考察“泰坦尼克”號郵輪殘骸途中失蹤... -
【足協杯】晉級16強!梅州客家隊點球淘...
文 羊城晚報全媒體記者柴智6月22日,中國足協杯上演第三輪賽事,梅州客 -
南京汽車產業迭代升級
以整車制造為龍頭,化傳統汽車產業優勢為新能源汽車集群優勢南京汽車產 -
setvolume32.dll如何修復
SetVolume32 dll是一個Windows系統文件,用于控制聲音的音量。如果該文 -
世界今日報丨端午好戲惠民生!數十位戲...
視頻加載中 縱覽客戶端訊(河北日報記者王育民通訊員李超)名家名段 -
土豆怎樣炸才會外脆里嫩? 土豆這個吃...
說到炸土豆條,大家都不陌生。畢竟土豆這種高淀粉食物油炸后非常香脆。 -
天天新動態:28天過會 A股近13年最大IP...
【28天過會A股近13年最大IPO來了先正達千億商譽何解?】28天閃電過會! -
突發!遼寧發生惡性滅門案,慘不忍睹,...
俗話說血濃于水,作為兄弟姐妹,他們是除了父母、愛人、孩子之外,可以 -
高考之后如何提高自己?Epic員工給你暑...
高考之后如何提高自己?Epic員工給你暑假建議! -
鄭氏點銀:黃金洗盤打壓破底,今日1926...
鄭氏點銀黃金洗盤打壓破底今日1926是節點壓力回顧昨日行情走勢及出現的
