OpenAI開放ChatGPT API,調(diào)用成本比GPT-3.5直降10倍



本周帶來(lái)的?9?個(gè)?SOTA?模型分別用于聊天對(duì)話、3D語(yǔ)義場(chǎng)景補(bǔ)全、3D人體重建、單目深度估計(jì)、文本引導(dǎo)的圖像編輯、新視圖合成;1個(gè)新思路關(guān)于ChatGPT歷史和潛在價(jià)值的探討。

ChatGPT開放ChatGPT API,調(diào)用成本相比GPT-3.5直降10倍
ChatGPT 因其高超的對(duì)話能力,引爆 AI 業(yè)界乃至社會(huì)公眾的關(guān)注。近日 OpenAI 宣布開放 ChatGPT API,以供開發(fā)者將模型集成于自己的應(yīng)用程序和產(chǎn)品,這進(jìn)一步解決了 ChatGPT 在商業(yè)場(chǎng)景中的應(yīng)用問(wèn)題。此次 ChatGPT API 接入的模型名為 gpt-3.5-turbo,性能上相比 GPT- 3.5 更快、更準(zhǔn)確、更強(qiáng)大,調(diào)用成本上相比 GPT-3.5 直降 10 倍,僅需 0.002 美元 / 千 token。
獲取資源:
https://sota.jiqizhixin.com/project/chatgpt

快手等提出SpikeGPT,使用脈沖神經(jīng)網(wǎng)絡(luò)來(lái)減少計(jì)算開銷和能源消耗
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
隨著大型語(yǔ)言模型規(guī)模不斷擴(kuò)大,它所需的計(jì)算資源也在不斷增加。脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)已經(jīng)成為深度學(xué)習(xí)的一種節(jié)能方法,它利用稀疏和事件驅(qū)動(dòng)的激活來(lái)減少與模型推理相關(guān)的計(jì)算開銷。該研究提出 SpikeGPT,使用直接 SNN 訓(xùn)練進(jìn)行語(yǔ)言生成,實(shí)現(xiàn)了與 ANN 相當(dāng)?shù)男阅?,同時(shí)保持了基于脈沖的計(jì)算能效。初步實(shí)驗(yàn)表明,SpikeGPT 在測(cè)試基準(zhǔn)上與非脈沖模型相比仍然具有競(jìng)爭(zhēng)力,而在可以利用稀疏的事件驅(qū)動(dòng)激活的神經(jīng)形態(tài)硬件上處理時(shí),能耗保持在 5 倍以下。
獲取資源:
https://sota.jiqizhixin.com/project/spikegpt

紐約大學(xué)等提出VoxFormer,用于從2D圖像中生成完整的3D場(chǎng)景
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion
人類可以很容易地想象被遮擋物體和場(chǎng)景的完整 3D 幾何結(jié)構(gòu),為了在 AI 系統(tǒng)中實(shí)現(xiàn)這種功能,該研究提出了 VoxFormer,一種基于 Transformer 的語(yǔ)義場(chǎng)景補(bǔ)全框架,可從 2D 圖像輸出完整的 3D 體積語(yǔ)義。其關(guān)鍵思想是,2D 圖像上的視覺(jué)特征僅對(duì)應(yīng)于可見的場(chǎng)景結(jié)構(gòu),而不是被遮擋或空白的空間。SemanticKITTI 上的實(shí)驗(yàn)表明,VoxFormer 在幾何和語(yǔ)義方面的相對(duì)改改進(jìn)分別達(dá)到 20.0% 和 18.1%,優(yōu)于現(xiàn)有技術(shù),并在訓(xùn)練期間將 GPU 內(nèi)存減少約 45%,降至 16GB 以下。
獲取資源:
https://sota.jiqizhixin.com/project/voxformer

蘇黎世理工提出Vid2Avatar,用于從真實(shí)場(chǎng)景單目視頻重建詳細(xì)而穩(wěn)健的3D人體幾何
Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via Self-supervised Scene Decomposition
該研究提出 Vid2Avatar,用于從真實(shí)場(chǎng)景單目視頻重建詳細(xì)的 3D 化身,無(wú)需真實(shí)數(shù)據(jù)監(jiān)督或外部分割模塊。從單眼野外視頻中重建自然移動(dòng)的人類,需要準(zhǔn)確將人類從任意背景中分離出來(lái),以及需要從短的視頻序列中重建詳細(xì)的三維表面。針對(duì)這些難點(diǎn),Vid2Avatar 對(duì)場(chǎng)景中的人和背景進(jìn)行聯(lián)合建模,通過(guò)兩個(gè)獨(dú)立的神經(jīng)場(chǎng)進(jìn)行參數(shù)化,直接在 3D 中解決場(chǎng)景分解和表面重建的任務(wù)。并引入用于體繪制和新目標(biāo)的從粗到精的采樣策略,以干凈地分離動(dòng)態(tài)人體和靜態(tài)背景,從而產(chǎn)生詳細(xì)而穩(wěn)健的 3D 人體幾何重建。
獲取資源:
https://sota.jiqizhixin.com/project/vid2avatar

KAUST等提出ZoeDepth,保持度量尺度的同時(shí)具有卓越泛化性能
ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth
現(xiàn)有從單一圖像進(jìn)行深度估計(jì)的工作,要么專注于泛化性能即相對(duì)深度估計(jì),要么專注于特定數(shù)據(jù)集的最先進(jìn)結(jié)果即度量深度估計(jì)。該研究提出 ZoeDepth,結(jié)合了相對(duì)深度和度量深度的方法,在保持度量尺度的同時(shí),產(chǎn)生具有出色泛化性能。ZoeDepth 是首個(gè)可以在多個(gè)數(shù)據(jù)集 (NYU Depth v2 和 KITTI) 上聯(lián)合訓(xùn)練而性能不明顯下降的模型,在室內(nèi)和室外域的 8 個(gè)未見過(guò)的數(shù)據(jù)集上實(shí)現(xiàn)了前所未有的零試泛化性能。
獲取資源:
https://sota.jiqizhixin.com/project/zoedepth

中國(guó)科學(xué)院大學(xué)提出Region-Aware Diffusion,可自動(dòng)定位圖像編輯區(qū)域
Region-Aware Diffusion for Zero-shot Text-driven Image Editing
文本引導(dǎo)的圖像編輯最近受到了廣泛的關(guān)注。與當(dāng)前基于掩碼的圖像編輯方法不同,該研究為實(shí)體級(jí)圖像編輯提出一種新型區(qū)域感知擴(kuò)散模型 (RDM),它可以自動(dòng)定位感興趣的區(qū)域,并根據(jù)給定的文本提示進(jìn)行替換。為在圖像保真度和推理速度之間取得平衡,該研究通過(guò)結(jié)合潛在空間擴(kuò)散和增強(qiáng)方向引導(dǎo)來(lái)設(shè)計(jì)密集擴(kuò)散管道。結(jié)果表明,RDM 在視覺(jué)質(zhì)量、整體協(xié)調(diào)性、非編輯區(qū)域內(nèi)容保留和文本圖像語(yǔ)義一致性方面優(yōu)于以前的方法。
獲取資源:
https://sota.jiqizhixin.com/project/region-aware-diffusion

曠視提出OccDepth,利用圖像的深度信息更好地重建3D場(chǎng)景
OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion
3D 語(yǔ)義場(chǎng)景補(bǔ)全(SSC)提供密集的幾何和語(yǔ)義場(chǎng)景表示,可應(yīng)用于自動(dòng)駕駛和機(jī)器人系統(tǒng)領(lǐng)域。僅從視覺(jué)圖像估計(jì)場(chǎng)景的完整幾何和語(yǔ)義具有挑戰(zhàn)性,準(zhǔn)確的深度信息對(duì)于恢復(fù) 3D 幾何至關(guān)重要。該研究借鑒了 “人類使用雙眼能比單眼更好地感知 3D 世界中的深度信息” 的思想,提出名為 OccDepth 的語(yǔ)義場(chǎng)景補(bǔ)全?法。它分別顯式和隱式地利?圖像中含有的深度信息,以幫助重建良好的 3D 幾何機(jī)構(gòu)。在 SemanticKITTI 和 NYUv2 等數(shù)據(jù)集上的?量實(shí)驗(yàn)表明,OccDepth 均達(dá)到了 SOTA。同時(shí)可視化結(jié)果表明 OccDepth 可以更好地重建出近處和遠(yuǎn)處的?何結(jié)構(gòu)。
獲取資源:
https://sota.jiqizhixin.com/project/occdepth

Niantic提出DiffusioNeRF,用去噪擴(kuò)散模型對(duì)NeRF正則化,改善3D重建和新視圖合成
DiffusioNeRF: Regularizing Neural Radiance Fields with Denoising Diffusion Models
神經(jīng)輻射場(chǎng)(NeRFs)在新的視圖合成任務(wù)中顯示出良好結(jié)果,NeRF 通過(guò)最小化場(chǎng)景的訓(xùn)練視圖和可區(qū)分渲染之間的光度差異來(lái)學(xué)習(xí)場(chǎng)景的顏色和密度場(chǎng)。然而,場(chǎng)景幾何體和顏色場(chǎng)受到嚴(yán)重的約束,尤其是在使用很少的輸入視圖進(jìn)行訓(xùn)練時(shí)會(huì)導(dǎo)致瑕疵。該研究使用去噪擴(kuò)散模型(DDM)學(xué)習(xí)了先驗(yàn)的場(chǎng)景幾何和顏色,在合成 Hypersim 數(shù)據(jù)集的 RGBD 塊上訓(xùn)練的,可以用于預(yù)測(cè)顏色和深度塊的聯(lián)合概率分布的對(duì)數(shù)梯度。對(duì) LLFF 的評(píng)估表明,該方法學(xué)習(xí)的先驗(yàn)在重建的幾何體中實(shí)現(xiàn)了質(zhì)量改進(jìn),并改進(jìn)了對(duì)新視圖的泛化能力。對(duì) DTU 的評(píng)估表明,NeRF 方法中的重建質(zhì)量有所提高。
獲取資源:
https://sota.jiqizhixin.com/project/diffusionerf

哈工大提出基于學(xué)習(xí)的編碼器ELITE,用于快速和準(zhǔn)確的定制文本到圖像的合成
ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation
文本到圖像模型在想象力創(chuàng)造方面展示出前所未有的突破,但對(duì)于定制概念的表達(dá)仍有進(jìn)一步提高的空間。先前工作主要基于優(yōu)化來(lái)學(xué)習(xí)這些概念,但該方法會(huì)帶來(lái)過(guò)多的計(jì)算或內(nèi)存負(fù)擔(dān)。該研究提出新型的基于學(xué)習(xí)的編碼器 ELITE,用于快速和準(zhǔn)確的定制文本到圖像的合成,它由全局和局部映射網(wǎng)絡(luò)組成。與現(xiàn)有基于優(yōu)化的方法相比,ELITE 直接將視覺(jué)概念編碼為文本嵌入,大大減少了學(xué)習(xí)新概念的計(jì)算和記憶負(fù)擔(dān)。在將學(xué)習(xí)到的概念編輯到新的場(chǎng)景中時(shí),ELITE 表現(xiàn)出卓越的靈活性,同時(shí)保留了圖像的特定細(xì)節(jié),使其成為個(gè)性化文本到圖像生成的寶貴工具。
獲取資源:
https://sota.jiqizhixin.com/project/elite

復(fù)旦聯(lián)合清華探討ChatGPT潛力、前景和局限
Trieste: Efficiently Exploring The Depths of Black-box Functions with TensorFlow
OpenAI 發(fā)布的生成式對(duì)話預(yù)訓(xùn)練語(yǔ)言模型 ChatGPT,吸引了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。這是首次在大型語(yǔ)言模型(large language model, LLM)很好地解決如此多樣的開放任務(wù)。ChatGPT 成為歷史上增長(zhǎng)最快的用戶應(yīng)用程序,因其高超的對(duì)話能力,已引爆社會(huì)關(guān)注。為了更好地理解 ChatGPT,該研究簡(jiǎn)要地介紹了它的歷史,討論了它的優(yōu)點(diǎn)和缺點(diǎn),并指出了幾個(gè)潛在的應(yīng)用。最后分析了它對(duì)可信的人工智能、對(duì)話式搜索引擎和人工通用智能發(fā)展的影響。


網(wǎng)頁(yè)端訪問(wèn): 在瀏覽器地址欄輸入新版站點(diǎn)地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平臺(tái),查看關(guān)注的模型是否有新資源收錄。?
移動(dòng)端訪問(wèn):在微信移動(dòng)端中搜索服務(wù)號(hào)名稱「機(jī)器之心SOTA模型」或 ID 「sotaai」,關(guān)注 SOTA!模型服務(wù)號(hào),即可通過(guò)服務(wù)號(hào)底部菜單欄使用平臺(tái)功能,更有最新AI技術(shù)、開發(fā)資源及社區(qū)動(dòng)態(tài)定期推送。
