最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

LLM360:開放透明的開源大模型

2023-12-13 16:05 作者:ReadPaper論文閱讀  | 我要投稿

LLM360計(jì)劃是為了促進(jìn)大型語言模型(LLM)的開放性和透明度而啟動(dòng)的。這個(gè)計(jì)劃的核心是公開發(fā)布LLM訓(xùn)練過程中的所有細(xì)節(jié),包括中間檢查點(diǎn)、訓(xùn)練數(shù)據(jù)及其映射、所有收集的指標(biāo)以及所有相關(guān)的源代碼。這樣的做法旨在幫助研究人員和從業(yè)者更深入地理解LLM的構(gòu)建過程,進(jìn)而促進(jìn)小規(guī)模實(shí)驗(yàn)室的研究和人工智能研究的可重現(xiàn)性。LLM360下已經(jīng)發(fā)布了兩個(gè)模型:Amber-7B和CrystalCoder-7B,這兩個(gè)模型代表了該計(jì)劃的宗旨,即開源和透明的人工智能發(fā)展。

論文:https://www.llm360.ai/paper.pdf

Readpaper:https://readpaper.com/paper/4832155159119265793

主頁:https://www.llm360.ai/index.html


項(xiàng)目介紹

LLM360希望通過創(chuàng)建一個(gè)框架,來促進(jìn)大型語言模型(LLM)的開放性和研究合作。該框架包括四個(gè)主要組成部分:頻繁的中間模型檢查點(diǎn)、完整數(shù)據(jù)序列的訓(xùn)練數(shù)據(jù)、源代碼、以及訓(xùn)練過程中收集的日志和指標(biāo)。這些組件的公開旨在提供更全面的LLM研究資源,以支持研究社區(qū)的深入分析和協(xié)作。LLM360在后續(xù)增加更多細(xì)節(jié),并鼓勵(lì)社區(qū)反饋,以優(yōu)化其發(fā)布的內(nèi)容。目前開源了兩個(gè)模型Amber?(英文LLM)和?CrystalCoder(代碼LLM)。


Amber:推動(dòng)LLM預(yù)訓(xùn)練領(lǐng)域的知識(shí)與透明度

Amber是一個(gè)大型語言模型(LLM),它基于1.2萬億token進(jìn)行訓(xùn)練,性能與LLaMA-7B和OpenLLaMA-v2-7B相似,但優(yōu)于Pythia-6.7B。Amber的核心特點(diǎn)在于促進(jìn)了訓(xùn)練團(tuán)隊(duì)與廣泛社區(qū)之間的知識(shí)交流。除了最終模型權(quán)重,Amber還提供了359個(gè)額外的模型檢查點(diǎn)和每個(gè)檢查點(diǎn)對應(yīng)的數(shù)據(jù)序列。

CrystalCoder:溝通人類語言與機(jī)器代碼

CrystalCoder是一個(gè)平衡了編程和語言處理能力的7B級(jí)別語言模型,通過在預(yù)訓(xùn)練過程中融合文本和代碼數(shù)據(jù)來實(shí)現(xiàn)雙重優(yōu)勢。與傳統(tǒng)的代碼LLM相比,CrystalCoder更早地引入代碼數(shù)據(jù),且特別強(qiáng)調(diào)了Python和Web編程語言的訓(xùn)練,使其成為一個(gè)高效的編程助手。實(shí)驗(yàn)結(jié)果顯示,CrystalCoder在少量訓(xùn)練token的情況下,仍然在LLaMA?2和Code?LLaMA之間保持平衡。這個(gè)模型在語言處理和編碼能力上的表現(xiàn),為研究AI代理和工具使用能力提供了有價(jià)值的參考。此外,發(fā)布了143個(gè)檢查點(diǎn)和預(yù)訓(xùn)練數(shù)據(jù),這提高了模型的可訪問性和透明度。

項(xiàng)目目標(biāo)

LLM360框架的主要目標(biāo)包括提高大型語言模型(LLM)研究的可訪問性、促進(jìn)研究進(jìn)步與可重復(fù)性,并承擔(dān)環(huán)境責(zé)任。對于沒有或只有少量GPU資源的研究者,LLM360提供了查看和利用中間訓(xùn)練結(jié)果的可能性,使他們能夠進(jìn)行深入研究而無需從零開始。此外,框架通過提供完整的、可復(fù)制的資源,支持研究的復(fù)制和結(jié)果的驗(yàn)證,從而增強(qiáng)了研究環(huán)境的可靠性和透明度。


觀點(diǎn)

全流程的開源模型才是完整意義上的開源。

學(xué)術(shù)上,完整開源的模型提供了一個(gè)獨(dú)特的資源庫,使研究人員能夠更深入地研究和理解大型語言模型的工作機(jī)制。也可以更好的研究每一部分的機(jī)制,盡可能的做到不黑箱。

商業(yè)上,這種透明和開放的做法可以促進(jìn)企業(yè)之間的交流和合作。甚至衍生出新的范式。


特邀作者:日本早稻田大學(xué)計(jì)算機(jī)系博士? 王軍杰

LLM360:開放透明的開源大模型的評論 (共 條)

分享到微博請遵守國家法律
吉木萨尔县| 桃源县| 玛多县| 闵行区| 砀山县| 诏安县| 同仁县| 芜湖县| 镇坪县| 汶上县| 柘城县| 康定县| 疏附县| 临猗县| 荥阳市| 凉山| 寻乌县| 云安县| 吉林省| 洪湖市| 西城区| 仁寿县| 汝州市| 高雄县| 民权县| 广南县| 环江| 林周县| 阳曲县| 清镇市| 靖边县| 神木县| 太康县| 西乌珠穆沁旗| 阿坝| 甘孜| 邳州市| 平泉县| 成武县| 达日县| 澄迈县|