使用 qwen.cpp 項目提升 14b 模型的推理速度
可在線運行的notebook:在kaggle網(wǎng)站搜索 qwen-14b-ggml
首先需要下載模型和項目文件:
接著跳轉(zhuǎn)到項目文件夾下:
然后對C++代碼進行編譯:
那么你就可以使用命令行的形式進行CPU的模型推理了:
但我們想使用GPU的模型推理,那么就要再次進行編譯:
此時重新使用命令行就會默認進行GPU形式的模型推理:
這還不算完,我們想使用python代碼來調(diào)用底層的C++代碼,需要安裝對應的python包:
安裝完后,請?zhí)D(zhuǎn)出當前目錄再運行python代碼,因為當前目錄有個跟python包重名的文件夾:
最終,我們完成了更快的qwen-14b模型推理:



標簽: