katago的60blocks發(fā)展方向也許是錯誤的
2023-02-21 20:04 作者:你來指導(dǎo)A | 我要投稿
正如katago推出的TRT引擎一樣,成為了一個雞肋產(chǎn)物。雖然可以使用更高的線程來實現(xiàn)更快的訪問速度,其強度在同等線程同樣訪問量卻更弱。其所占用內(nèi)存卻更高。啟動雖然有多次優(yōu)化,但還是遲緩。
60blocks模型比40blocks大許多,而強度并沒有,如同體積一樣成倍增長甚至更弱。同一引擎同一計算量強度就輸給了40blocks。按理說60blocks的一次訪問量所吞吐的數(shù)據(jù)應(yīng)該是40blocks的數(shù)倍。而產(chǎn)生的結(jié)果卻不盡人意。目前分布訓(xùn)練在消耗大量資源訓(xùn)練60blocks是我不感興趣的,也就不參與分布訓(xùn)練了。
而目前的模型所產(chǎn)生的強度已經(jīng)遠超人類,再高的強度也意義不大了。
最新推出的18blocks也是考慮新的發(fā)展方向。更小的模型,更少的資源占有。我認(rèn)為才是正確的發(fā)展方向。18blocks的強度略弱于60blocks,而模型大小卻只有三分之一。訪問速度接近40blocks。
我認(rèn)為深度計算或者超高數(shù)值的訪問量不是發(fā)展的方向。第一選的最強才是發(fā)展方向。更小的模型,更小的計算量,更高的強度才是好方向。
標(biāo)簽: