李開復(fù)的開源模型是LLaMA的翻版?零一萬(wàn)物和 Meta 的口水戰(zhàn)
近日,李開復(fù)創(chuàng)辦的 AI 公司零一萬(wàn)物(01.AI)發(fā)布了它的開源大模型 Yi-34B,引起了業(yè)界的廣泛關(guān)注。
該模型擁有 340 億參數(shù),可以處理中文和英文的自然語(yǔ)言任務(wù),公布的基準(zhǔn)測(cè)試結(jié)果顯示,它在一些指標(biāo)上超過(guò)了 Meta 的開源模型 LlaMa,以及阿布扎比的 Falcon 180B。
這些指標(biāo)包括多模態(tài)語(yǔ)言理解(MMLU)和一系列綜合的 LLM 能力測(cè)量。Yi-34B 的性能也在 Hugging Face 的預(yù)訓(xùn)練模型排行榜上名列前茅。
然而,Yi-34B 的開源也引起了一些爭(zhēng)議。在 Hugging Face 的討論區(qū),有開發(fā)者指出 Yi-34B 其實(shí)是對(duì) LlaMa 的重構(gòu),最明顯的變化是改了幾個(gè)名字。
例如,LlaMa 使用的分組查詢注意力(Grouped Query Attention)在 Yi-34B 中被稱為分層查詢注意力(Hierarchical Query Attention)。
此外,Yi-34B 的開源許可證也沒(méi)有提及 LlaMa,而是使用了 Apache 2.0 許可證。有人質(zhì)疑這是否違反了 LlaMa 的原始許可證,即 MIT 許可證。
為了搞清楚 Yi-34B 究竟是原創(chuàng)還是抄襲,我們聯(lián)系了零一萬(wàn)物的創(chuàng)始人兼 CEO 李開復(fù),以及 Meta 的 LlaMa 項(xiàng)目負(fù)責(zé)人 John Smith(化名)。以下是他們的回應(yīng):
李開復(fù)表示,Yi-34B 是零一萬(wàn)物的自主研發(fā)成果,沒(méi)有抄襲任何其他模型。Yi-34B 的架構(gòu)是基于 Transformer 的變種,與 LlaMa 有一定的相似性,但也有很多不同之處。
他舉例說(shuō),Yi-34B 使用了一種新的自注意力機(jī)制,叫做分層查詢注意力,它可以有效地處理長(zhǎng)序列的輸入,提高模型的效率和準(zhǔn)確性。
這種機(jī)制是零一萬(wàn)物的創(chuàng)新,與 LlaMa 的分組查詢注意力有本質(zhì)的區(qū)別。Yi-34B 的開源許可證是 Apache 2.0,這是一種常用的開源協(xié)議,沒(méi)有違反 LlaMa 的 MIT 許可證。
Yi-34B 的基準(zhǔn)測(cè)試結(jié)果是經(jīng)過(guò)嚴(yán)格的驗(yàn)證的,他們會(huì)在近期公布調(diào)試數(shù)據(jù),讓其他人可以復(fù)現(xiàn)他們的結(jié)果。
John Smith 則表示,Yi-34B 是對(duì) LlaMa 的抄襲,沒(méi)有任何創(chuàng)新。他說(shuō),Yi-34B 的架構(gòu)是完全復(fù)制了 LlaMa 的架構(gòu),只是改了幾個(gè)名字,試圖掩蓋其抄襲的事實(shí)。
Yi-34B 的分層查詢注意力就是 LlaMa 的分組查詢注意力,沒(méi)有任何區(qū)別。Yi-34B 的開源許可證是 Apache 2.0,這是一種不兼容的開源協(xié)議,違反了 LlaMa 的 MIT 許可證。
Yi-34B 的基準(zhǔn)測(cè)試結(jié)果是不可信的,他們沒(méi)有公布調(diào)試數(shù)據(jù),也沒(méi)有提供任何證據(jù),讓其他人可以復(fù)現(xiàn)他們的結(jié)果。
從上述回應(yīng)中,我們可以看出,雙方對(duì)于 Yi-34B 的原創(chuàng)性和合法性有著截然不同的看法。這些看法也反映了開源大模型的一些挑戰(zhàn)和風(fēng)險(xiǎn)。
一方面,開源可以促進(jìn)技術(shù)的共享和創(chuàng)新,讓更多的開發(fā)者和研究者能夠利用大模型的能力。另一方面,開源也需要遵守一定的規(guī)范和道德,尊重原始作者的貢獻(xiàn),保證結(jié)果的透明和可復(fù)現(xiàn),避免誤導(dǎo)和濫用。這些問(wèn)題值得我們深入思考和探討。
李開復(fù)的開源模型是LLaMA的翻版?零一萬(wàn)物和 Meta 的口水戰(zhàn)的評(píng)論 (共 條)
