開源社區(qū)的新勝利:LLEMMA只需要一半參數就達到了閉源的谷歌的Minerva
近期,普林斯頓大學和EleutherAI等研究者為解決數學問題訓練了一個特定領域的語言模型。他們認為數學推理是AI的核心任務,且能夠進行強數學推理的語言模型是許多研究課題的上游。他們提出的方法,通過對Proof-Pile-2進行持續(xù)的預訓練,使語言模型適應數學,從而得到了LLEMMA:7B和34B的基礎語言模型,其數學能力大幅提高。LLEMMA?7B的性能遠超谷歌Minerva?8B,而LLEMMA?34B在參數少近一半的情況下性能逼近Minerva?62B。

論文鏈接:https://arxiv.org/pdf/2310.10631.pdf
Readpaper鏈接:https://readpaper.com/paper/2008650305127561472
Github鏈接:https://github.com/EleutherAI/math-lm
詳細介紹:
數據集:Proof-Pile-2?是為培訓或微調特定領域的大型語言模型而創(chuàng)建的,專門用于一般數學任務。數據集由純文本文檔組成,每個實例都是一個純文本文檔,伴隨著其原始分割和文件名或位置的元數據。而且,數據集也是開源的!

在?MATH?基準測試中,LLEMMA?的表現超越了所有已知的開放基模型。此外,LLEMMA?能夠使用工具并進行正式的定理證明,而無需進一步的微調。

應用:該數據集已被用于訓練?LLEMMA?語言模型作為一個領域適應和持續(xù)預訓練語料庫。它特別針對數學領域的高質量語言建模語料庫,但也可能對通用語言建?;蚱渌搭A見的下游用途有用。
觀點:
從學術角度看,這種模型為數學研究提供了一個強大的工具,可以幫助研究人員更快地解決問題和驗證理論。而且,也提供了一個數據集,可以讓大家繼續(xù)在這上面進行深度的挖掘。
從商業(yè)角度看,LLEMMA?可以被集成到各種應用中,如教育軟件、自動化工具和研究平臺,為用戶提供即時的數學解決方案。而且,這種公開透明的模型也容易被大家接受,而不是嘴上說著領先卻沒有任何說明的模型。
特邀作者:日本早稻田大學計算機系博士? 王軍杰?