最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GPT-4 劍指多模態(tài),前有谷歌 PaLM-E,AI 格局要變?

2023-03-16 14:24 作者:HyperAI超神經(jīng)  | 我要投稿

內(nèi)容一覽:GPT-4 猶如一記核彈,在 3 月 14 日引爆了整個科技圈。在這場核爆的中心,萬眾矚目的 GPT-4 狂秀肌肉,而在核爆的外圍,谷歌等眾神虎視眈眈,動作不斷。

關(guān)鍵詞:GPT-4 谷歌 多模態(tài)模型

本文首發(fā)自 HyperAI超神經(jīng)微信公眾號~

美東時間 3 月 14 日,OpenAI 重磅推出大型多模態(tài)模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天機(jī)器人背后的技術(shù)基礎(chǔ)。OpenAI 稱,GPT-4 能接受圖像和文本輸入,輸出文本內(nèi)容,雖然在許多現(xiàn)實場景中的能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中已表現(xiàn)出人類水平。

OpenAI 發(fā)布 GPT-4

GPT-4 突襲落地:三大特性吸睛

GPT-4 此次更新,主要有三個飛躍式提升的新特性:文字輸入限制提升、具備識圖能力以及更強(qiáng)的推理能力。

內(nèi)容更長更豐富

據(jù) OpenAI 說法,GPT-4 能夠處理超過 25,000 個單詞的文本。Medium 作家 Michael King 對此談道,此特性允許創(chuàng)建長篇內(nèi)容,例如文章和博客,能夠為企業(yè)和個人節(jié)省時間和資源。

此外,GPT-4 對大量文本的處理使擴(kuò)展對話成為可能,這意味著,在服務(wù)業(yè)等行業(yè)中,人工智能聊天機(jī)器人可以對客戶的查詢提供更詳細(xì)、更具洞察力的響應(yīng)。同時,此特性還能進(jìn)行高效地文檔搜索和分析,從而成為金融、法律和醫(yī)療保健等行業(yè)的有利工具。

GPT-4 處理文本能力優(yōu)于 ChatGPT

更具推理能力

OpenAI 表示,GPT-4 生成的答案錯誤更少,正確性要比 GPT-3.5 高 40%。同時,GPT-3.5 與 GPT-4 在閑聊時差別不大,但若任務(wù)夠復(fù)雜,GPT-4 要比 GPT-3.5 更可靠、更有創(chuàng)意且能處理更多微妙指令。據(jù)悉,GPT-4 參加了多種基準(zhǔn)考試測試,其中在 Uniform Bar Exam、LSAT 等考試中,得分要高于 88% 的應(yīng)試者。

「做題家」 GPT-4

亮眼新特性:多模態(tài)

除了答題能力更勝一籌之外,GPT-4 另一個亮眼的特性就是可以接受文本和圖像形式的輸入,圖像類型可以是照片、圖表以及屏幕截圖等。比如以下例子:

問題:這幅圖有什么好笑的? 逐條描述它。


GPT-4 回答:該圖像顯示了一個包含三個圖片的 「 Lightning Cable 」 適配器。


圖1:一個智能手機(jī)與 VGA 連接器(一個大型,藍(lán)色,15 針連接器通常用于計算機(jī)顯示器)插入其充電端口。


圖2:「 Lightning Cable 」 適配器的封裝,上面有一個 VGA 連接器的圖片。


圖3:VGA 連接器的特寫鏡頭,最后是一個小型 Lightning 連接器(用于為 iPhone 和其他蘋果設(shè)備充電)。


這張圖片中的幽默來自于將一個過時的大型 VGA 連接器插入一個小型的現(xiàn)代智能手機(jī)充電端口的荒謬性。

GPT-4 分析梗圖

需要注意的是,此特性還處于研究者預(yù)覽版本,并沒有對外開放,OpenAI 尚未透露開放時間。

「它并不完美」

在介紹 GPT-4 的新功能的同時,OpenAI 也坦言了它的一些局限性。與之前版本的 GPT 一樣,GPT-4 仍然存在 social biases、hallucinations 以及 adversarial prompts 等問題。換句話說,目前來看 GPT-4 并不完美。但 OpenAI 也表示,這些都是他們正在努力解決的問題。

多模態(tài)模型:谷歌搶先上「前菜」

雖然多模態(tài)是 GPT-4 一大亮眼特性,但不得不說,GPT-4 并不是唯一的多模態(tài)模型。

微軟 AI 技術(shù)專家 Holger Kenn 介紹所謂多模態(tài)模型,是其不僅可以將文本相應(yīng)地翻譯成圖像,還可以翻譯成音頻和視頻。而早在本月初,谷歌就已發(fā)布史上最大的視覺語言模型——PaLM-E (Pathways Language Model with Embodied),一個可用于機(jī)器人的嵌入式多模態(tài)語言模型。PalM-E 整合了 540B 的 PaLM 語言模型和 22B 的 ViT 視覺模型,因此具有 562B 參數(shù)。

研究人員在多個任務(wù),包括機(jī)器人操作規(guī)則、視覺問答和圖像字幕中等進(jìn)行了端到端的訓(xùn)練,評估結(jié)果表明該模型能夠能有效地解決各種推理任務(wù),并在不同的觀察模態(tài)和多個實體上表現(xiàn)出了「正向轉(zhuǎn)移 (positive transfer)」,并且該模型除了接受機(jī)器人任務(wù)訓(xùn)練,還在視覺-語言任務(wù)上有出色的表現(xiàn)。

PaLM-E 將傳感器與文本輸入結(jié)合,建立語言和感知連結(jié)

展示示例中,當(dāng)人類發(fā)出「把抽屜里的薯片拿給我」的指令時,PaLM-E 可以為一個裝有機(jī)械臂的機(jī)器人生成一個行動命令并執(zhí)行行動,其通過分析來自機(jī)器人攝像頭的數(shù)據(jù)實現(xiàn),而無需對場景進(jìn)行預(yù)處理。

機(jī)器人完成了「 把抽屜里的薯片拿給我」的指令

除了賦予機(jī)器人以上能力,PaLM-E 本身也是視覺語言模型,可以看圖說故事,或者依據(jù)圖片內(nèi)容回答問題。

多模態(tài)模型等同「iPhone 」發(fā)布?

如今看來,整個 AI 領(lǐng)域正在緊鑼密鼓地開展軍備賽。面對 ChatGPT 的爆火,谷歌緊急發(fā)布 Bard 步步緊逼,近日又再次反擊,開放自家的大語言模型 API 「PaLM API」,同時還發(fā)布了一款幫助開發(fā)者快速構(gòu)建 AI 程序的工具 MakerSuite。

雖然 OpenAI CEO Sam Altman 前不久在接受采訪時,仍對 GPT-4 的發(fā)布時間保持神秘,宣稱「我們要在發(fā)布時,確定它是安全且負(fù)責(zé)任的」,但 GPT-4 這一波突襲,難免讓人猜測是否是由于面對谷歌等巨頭不斷地反擊和圍剿,迫使它的步伐加速。

需要注意的是,Sam 采訪中還談到一個觀點(diǎn),人工智能的下一個進(jìn)化階段正是多模態(tài)大模型的到來。「 我認(rèn)為這將是一個大趨勢...更普遍的是,這些強(qiáng)大的模型將成為真正的新技術(shù)平臺之一,這是自移動平臺以來我們沒有擁有過的?!?/p>

此次 GPT-4 的重磅發(fā)布,是否標(biāo)志著多模態(tài)模型時代正式到來,尚需要時間證明,但其強(qiáng)大的能力已經(jīng)開始讓很多開發(fā)者甚至普通人擔(dān)憂自己是否會被其取代。這一點(diǎn),或許微軟德國 CEO Marianne Janik 幾天前的公開言論可以作為答案,她認(rèn)為當(dāng)前 AI 發(fā)展就像當(dāng)年「iPhone 出現(xiàn)」,同時,她也明確表示這不是要取代工作,而是要以與以前不同的方式完成重復(fù)性任務(wù)。

「變革會使得傳統(tǒng)的工作模式發(fā)生變化,但我們也應(yīng)該看到,這種變化增加了很多新的可能性,因此,也會出現(xiàn)讓人興奮的新職業(yè)?!?/strong>


參考鏈接:

[1]https://openai.com/research/gpt-4

[2]https://venturebeat.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/

[3]https://palm-e.github.io/

[4]https://medium.com/@neonforge


GPT-4 劍指多模態(tài),前有谷歌 PaLM-E,AI 格局要變?的評論 (共 條)

分享到微博請遵守國家法律
佛教| 额尔古纳市| 高淳县| 和田县| 英德市| 安龙县| 喀什市| 华池县| 诏安县| 文水县| 三门峡市| SHOW| 铁力市| 尉犁县| 高碑店市| 沙坪坝区| 寻甸| 泰顺县| 巴彦淖尔市| 正镶白旗| 万山特区| 巴林右旗| 莫力| 呈贡县| 泸水县| 大埔区| 湟中县| 军事| 大余县| 信丰县| 寻甸| 五华县| 扬州市| 驻马店市| 马鞍山市| 北京市| 台安县| 大渡口区| 资兴市| 永新县| 永丰县|