GPT-4 劍指多模態(tài),前有谷歌 PaLM-E,AI 格局要變?
內(nèi)容一覽:GPT-4 猶如一記核彈,在 3 月 14 日引爆了整個科技圈。在這場核爆的中心,萬眾矚目的 GPT-4 狂秀肌肉,而在核爆的外圍,谷歌等眾神虎視眈眈,動作不斷。
關(guān)鍵詞:GPT-4 谷歌 多模態(tài)模型
本文首發(fā)自 HyperAI超神經(jīng)微信公眾號~
美東時間 3 月 14 日,OpenAI 重磅推出大型多模態(tài)模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天機(jī)器人背后的技術(shù)基礎(chǔ)。OpenAI 稱,GPT-4 能接受圖像和文本輸入,輸出文本內(nèi)容,雖然在許多現(xiàn)實場景中的能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中已表現(xiàn)出人類水平。

GPT-4 突襲落地:三大特性吸睛
GPT-4 此次更新,主要有三個飛躍式提升的新特性:文字輸入限制提升、具備識圖能力以及更強(qiáng)的推理能力。
內(nèi)容更長更豐富
據(jù) OpenAI 說法,GPT-4 能夠處理超過 25,000 個單詞的文本。Medium 作家 Michael King 對此談道,此特性允許創(chuàng)建長篇內(nèi)容,例如文章和博客,能夠為企業(yè)和個人節(jié)省時間和資源。
此外,GPT-4 對大量文本的處理使擴(kuò)展對話成為可能,這意味著,在服務(wù)業(yè)等行業(yè)中,人工智能聊天機(jī)器人可以對客戶的查詢提供更詳細(xì)、更具洞察力的響應(yīng)。同時,此特性還能進(jìn)行高效地文檔搜索和分析,從而成為金融、法律和醫(yī)療保健等行業(yè)的有利工具。

更具推理能力
OpenAI 表示,GPT-4 生成的答案錯誤更少,正確性要比 GPT-3.5 高 40%。同時,GPT-3.5 與 GPT-4 在閑聊時差別不大,但若任務(wù)夠復(fù)雜,GPT-4 要比 GPT-3.5 更可靠、更有創(chuàng)意且能處理更多微妙指令。據(jù)悉,GPT-4 參加了多種基準(zhǔn)考試測試,其中在 Uniform Bar Exam、LSAT 等考試中,得分要高于 88% 的應(yīng)試者。

亮眼新特性:多模態(tài)
除了答題能力更勝一籌之外,GPT-4 另一個亮眼的特性就是可以接受文本和圖像形式的輸入,圖像類型可以是照片、圖表以及屏幕截圖等。比如以下例子:
問題:這幅圖有什么好笑的? 逐條描述它。
GPT-4 回答:該圖像顯示了一個包含三個圖片的 「 Lightning Cable 」 適配器。
圖1:一個智能手機(jī)與 VGA 連接器(一個大型,藍(lán)色,15 針連接器通常用于計算機(jī)顯示器)插入其充電端口。
圖2:「 Lightning Cable 」 適配器的封裝,上面有一個 VGA 連接器的圖片。
圖3:VGA 連接器的特寫鏡頭,最后是一個小型 Lightning 連接器(用于為 iPhone 和其他蘋果設(shè)備充電)。
這張圖片中的幽默來自于將一個過時的大型 VGA 連接器插入一個小型的現(xiàn)代智能手機(jī)充電端口的荒謬性。

需要注意的是,此特性還處于研究者預(yù)覽版本,并沒有對外開放,OpenAI 尚未透露開放時間。
「它并不完美」
在介紹 GPT-4 的新功能的同時,OpenAI 也坦言了它的一些局限性。與之前版本的 GPT 一樣,GPT-4 仍然存在 social biases、hallucinations 以及 adversarial prompts 等問題。換句話說,目前來看 GPT-4 并不完美。但 OpenAI 也表示,這些都是他們正在努力解決的問題。
多模態(tài)模型:谷歌搶先上「前菜」
雖然多模態(tài)是 GPT-4 一大亮眼特性,但不得不說,GPT-4 并不是唯一的多模態(tài)模型。
微軟 AI 技術(shù)專家 Holger Kenn 介紹所謂多模態(tài)模型,是其不僅可以將文本相應(yīng)地翻譯成圖像,還可以翻譯成音頻和視頻。而早在本月初,谷歌就已發(fā)布史上最大的視覺語言模型——PaLM-E (Pathways Language Model with Embodied),一個可用于機(jī)器人的嵌入式多模態(tài)語言模型。PalM-E 整合了 540B 的 PaLM 語言模型和 22B 的 ViT 視覺模型,因此具有 562B 參數(shù)。
研究人員在多個任務(wù),包括機(jī)器人操作規(guī)則、視覺問答和圖像字幕中等進(jìn)行了端到端的訓(xùn)練,評估結(jié)果表明該模型能夠能有效地解決各種推理任務(wù),并在不同的觀察模態(tài)和多個實體上表現(xiàn)出了「正向轉(zhuǎn)移 (positive transfer)」,并且該模型除了接受機(jī)器人任務(wù)訓(xùn)練,還在視覺-語言任務(wù)上有出色的表現(xiàn)。

展示示例中,當(dāng)人類發(fā)出「把抽屜里的薯片拿給我」的指令時,PaLM-E 可以為一個裝有機(jī)械臂的機(jī)器人生成一個行動命令并執(zhí)行行動,其通過分析來自機(jī)器人攝像頭的數(shù)據(jù)實現(xiàn),而無需對場景進(jìn)行預(yù)處理。

除了賦予機(jī)器人以上能力,PaLM-E 本身也是視覺語言模型,可以看圖說故事,或者依據(jù)圖片內(nèi)容回答問題。
多模態(tài)模型等同「iPhone 」發(fā)布?
如今看來,整個 AI 領(lǐng)域正在緊鑼密鼓地開展軍備賽。面對 ChatGPT 的爆火,谷歌緊急發(fā)布 Bard 步步緊逼,近日又再次反擊,開放自家的大語言模型 API 「PaLM API」,同時還發(fā)布了一款幫助開發(fā)者快速構(gòu)建 AI 程序的工具 MakerSuite。
雖然 OpenAI CEO Sam Altman 前不久在接受采訪時,仍對 GPT-4 的發(fā)布時間保持神秘,宣稱「我們要在發(fā)布時,確定它是安全且負(fù)責(zé)任的」,但 GPT-4 這一波突襲,難免讓人猜測是否是由于面對谷歌等巨頭不斷地反擊和圍剿,迫使它的步伐加速。
需要注意的是,Sam 采訪中還談到一個觀點(diǎn),人工智能的下一個進(jìn)化階段正是多模態(tài)大模型的到來。「 我認(rèn)為這將是一個大趨勢...更普遍的是,這些強(qiáng)大的模型將成為真正的新技術(shù)平臺之一,這是自移動平臺以來我們沒有擁有過的?!?/p>
此次 GPT-4 的重磅發(fā)布,是否標(biāo)志著多模態(tài)模型時代正式到來,尚需要時間證明,但其強(qiáng)大的能力已經(jīng)開始讓很多開發(fā)者甚至普通人擔(dān)憂自己是否會被其取代。這一點(diǎn),或許微軟德國 CEO Marianne Janik 幾天前的公開言論可以作為答案,她認(rèn)為當(dāng)前 AI 發(fā)展就像當(dāng)年「iPhone 出現(xiàn)」,同時,她也明確表示這不是要取代工作,而是要以與以前不同的方式完成重復(fù)性任務(wù)。
「變革會使得傳統(tǒng)的工作模式發(fā)生變化,但我們也應(yīng)該看到,這種變化增加了很多新的可能性,因此,也會出現(xiàn)讓人興奮的新職業(yè)?!?/strong>
參考鏈接:
[1]https://openai.com/research/gpt-4
[2]https://venturebeat.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/
[3]https://palm-e.github.io/
[4]https://medium.com/@neonforge