GPT-4 劍指多模態(tài)，前有谷歌 PaLM-E，AI 格局要變？

2023-03-16 14:24 作者:HyperAI超神經(jīng) 0人讀過 | 我要投稿

內(nèi)容一覽：GPT-4 猶如一記核彈，在 3 月 14 日引爆了整個科技圈。在這場核爆的中心，萬眾矚目的 GPT-4 狂秀肌肉，而在核爆的外圍，谷歌等眾神虎視眈眈，動作不斷。

關(guān)鍵詞：GPT-4 谷歌多模態(tài)模型

本文首發(fā)自 HyperAI超神經(jīng)微信公眾號~

美東時間 3 月 14 日，OpenAI 重磅推出大型多模態(tài)模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天機(jī)器人背后的技術(shù)基礎(chǔ)。OpenAI 稱，GPT-4 能接受圖像和文本輸入，輸出文本內(nèi)容，雖然在許多現(xiàn)實場景中的能力不如人類，但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中已表現(xiàn)出人類水平。

GPT-4 突襲落地：三大特性吸睛

GPT-4 此次更新，主要有三個飛躍式提升的新特性：文字輸入限制提升、具備識圖能力以及更強(qiáng)的推理能力。

內(nèi)容更長更豐富

據(jù) OpenAI 說法，GPT-4 能夠處理超過 25,000 個單詞的文本。Medium 作家 Michael King 對此談道，此特性允許創(chuàng)建長篇內(nèi)容，例如文章和博客，能夠為企業(yè)和個人節(jié)省時間和資源。

此外，GPT-4 對大量文本的處理使擴(kuò)展對話成為可能，這意味著，在服務(wù)業(yè)等行業(yè)中，人工智能聊天機(jī)器人可以對客戶的查詢提供更詳細(xì)、更具洞察力的響應(yīng)。同時，此特性還能進(jìn)行高效地文檔搜索和分析，從而成為金融、法律和醫(yī)療保健等行業(yè)的有利工具。

更具推理能力

OpenAI 表示，GPT-4 生成的答案錯誤更少，正確性要比 GPT-3.5 高 40%。同時，GPT-3.5 與 GPT-4 在閑聊時差別不大，但若任務(wù)夠復(fù)雜，GPT-4 要比 GPT-3.5 更可靠、更有創(chuàng)意且能處理更多微妙指令。據(jù)悉，GPT-4 參加了多種基準(zhǔn)考試測試，其中在 Uniform Bar Exam、LSAT 等考試中，得分要高于 88% 的應(yīng)試者。

亮眼新特性：多模態(tài)

除了答題能力更勝一籌之外，GPT-4 另一個亮眼的特性就是可以接受文本和圖像形式的輸入，圖像類型可以是照片、圖表以及屏幕截圖等。比如以下例子：

問題：這幅圖有什么好笑的? 逐條描述它。

GPT-4 回答：該圖像顯示了一個包含三個圖片的「 Lightning Cable 」適配器。

圖1：一個智能手機(jī)與 VGA 連接器（一個大型，藍(lán)色，15 針連接器通常用于計算機(jī)顯示器）插入其充電端口。

圖2：「 Lightning Cable 」適配器的封裝，上面有一個 VGA 連接器的圖片。

圖3：VGA 連接器的特寫鏡頭，最后是一個小型 Lightning 連接器（用于為 iPhone 和其他蘋果設(shè)備充電）。

這張圖片中的幽默來自于將一個過時的大型 VGA 連接器插入一個小型的現(xiàn)代智能手機(jī)充電端口的荒謬性。

需要注意的是，此特性還處于研究者預(yù)覽版本，并沒有對外開放，OpenAI 尚未透露開放時間。

「它并不完美」

在介紹 GPT-4 的新功能的同時，OpenAI 也坦言了它的一些局限性。與之前版本的 GPT 一樣，GPT-4 仍然存在 social biases、hallucinations 以及 adversarial prompts 等問題。換句話說，目前來看 GPT-4 并不完美。但 OpenAI 也表示，這些都是他們正在努力解決的問題。

多模態(tài)模型：谷歌搶先上「前菜」

雖然多模態(tài)是 GPT-4 一大亮眼特性，但不得不說，GPT-4 并不是唯一的多模態(tài)模型。

微軟 AI 技術(shù)專家 Holger Kenn 介紹所謂多模態(tài)模型，是其不僅可以將文本相應(yīng)地翻譯成圖像，還可以翻譯成音頻和視頻。而早在本月初，谷歌就已發(fā)布史上最大的視覺語言模型——PaLM-E (Pathways Language Model with Embodied)，一個可用于機(jī)器人的嵌入式多模態(tài)語言模型。PalM-E 整合了 540B 的 PaLM 語言模型和 22B 的 ViT 視覺模型，因此具有 562B 參數(shù)。

研究人員在多個任務(wù)，包括機(jī)器人操作規(guī)則、視覺問答和圖像字幕中等進(jìn)行了端到端的訓(xùn)練，評估結(jié)果表明該模型能夠能有效地解決各種推理任務(wù)，并在不同的觀察模態(tài)和多個實體上表現(xiàn)出了「正向轉(zhuǎn)移 (positive transfer)」，并且該模型除了接受機(jī)器人任務(wù)訓(xùn)練，還在視覺-語言任務(wù)上有出色的表現(xiàn)。

展示示例中，當(dāng)人類發(fā)出「把抽屜里的薯片拿給我」的指令時，PaLM-E 可以為一個裝有機(jī)械臂的機(jī)器人生成一個行動命令并執(zhí)行行動，其通過分析來自機(jī)器人攝像頭的數(shù)據(jù)實現(xiàn)，而無需對場景進(jìn)行預(yù)處理。

除了賦予機(jī)器人以上能力，PaLM-E 本身也是視覺語言模型，可以看圖說故事，或者依據(jù)圖片內(nèi)容回答問題。

多模態(tài)模型等同「iPhone 」發(fā)布？

如今看來，整個 AI 領(lǐng)域正在緊鑼密鼓地開展軍備賽。面對 ChatGPT 的爆火，谷歌緊急發(fā)布 Bard 步步緊逼，近日又再次反擊，開放自家的大語言模型 API 「PaLM API」，同時還發(fā)布了一款幫助開發(fā)者快速構(gòu)建 AI 程序的工具 MakerSuite。

雖然 OpenAI CEO Sam Altman 前不久在接受采訪時，仍對 GPT-4 的發(fā)布時間保持神秘，宣稱「我們要在發(fā)布時，確定它是安全且負(fù)責(zé)任的」，但 GPT-4 這一波突襲，難免讓人猜測是否是由于面對谷歌等巨頭不斷地反擊和圍剿，迫使它的步伐加速。

需要注意的是，Sam 采訪中還談到一個觀點(diǎn)，人工智能的下一個進(jìn)化階段正是多模態(tài)大模型的到來。「我認(rèn)為這將是一個大趨勢...更普遍的是，這些強(qiáng)大的模型將成為真正的新技術(shù)平臺之一，這是自移動平臺以來我們沒有擁有過的?！?/p>

此次 GPT-4 的重磅發(fā)布，是否標(biāo)志著多模態(tài)模型時代正式到來，尚需要時間證明，但其強(qiáng)大的能力已經(jīng)開始讓很多開發(fā)者甚至普通人擔(dān)憂自己是否會被其取代。這一點(diǎn)，或許微軟德國 CEO Marianne Janik 幾天前的公開言論可以作為答案，她認(rèn)為當(dāng)前 AI 發(fā)展就像當(dāng)年「iPhone 出現(xiàn)」，同時，她也明確表示這不是要取代工作，而是要以與以前不同的方式完成重復(fù)性任務(wù)。

「變革會使得傳統(tǒng)的工作模式發(fā)生變化，但我們也應(yīng)該看到，這種變化增加了很多新的可能性，因此，也會出現(xiàn)讓人興奮的新職業(yè)?！?/strong>

參考鏈接：

[1]https://openai.com/research/gpt-4

[2]https://venturebeat.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/

[3]https://palm-e.github.io/

[4]https://medium.com/@neonforge

標(biāo)簽：谷歌多模態(tài)大模型 GPT-4

我喜歡()

本文作者的其他文章

GPT-4 劍指多模態(tài)，前有谷歌 PaLM-E，AI 格局要變？的評論 (共條)

分享到微博請遵守國家法律

HyperAI超神經(jīng)
發(fā)短消息
 關(guān)注TA

你可能也喜歡這些文章

戀愛要和喜歡的人談，笨蛋小狗要@喜歡的人看。
凡科網(wǎng)助力蜜雪冰城出圈營銷，凡科網(wǎng)“你愛我，我愛你”
救救孩子的畢業(yè)論文吧！
steam商店錯誤代碼-118解決系統(tǒng)報錯的解決辦法
泰拉瑞亞：當(dāng)萌新與骷髏王大戰(zhàn)300回合！
智能照明控制系統(tǒng)某大樓大廳照明的應(yīng)用
合肥瑞金肛腸醫(yī)院怎么樣?治療痔瘡怎么樣?
按規(guī)律做事人才能有所改變
極窄推拉門國內(nèi)一線品牌高品質(zhì)推薦
哈爾濱不干膠標(biāo)簽工廠：如何解讀火腿腸標(biāo)簽上的信息？

最新發(fā)布的文章

農(nóng)發(fā)行河津市支行做好年終決算工作
農(nóng)發(fā)行河津市支行持續(xù)加強(qiáng)反洗錢工作管理
農(nóng)發(fā)行河津市支行扎實做好安保工作
農(nóng)發(fā)行河津市支行組織開展憲法主題宣傳活動
農(nóng)發(fā)行河津市支行開展"挺膺擔(dān)當(dāng)，強(qiáng)國復(fù)興"主題團(tuán)日活動
年終總結(jié)2023，布局2024，挑一個目標(biāo)置頂一整年！
12月20日維護(hù)結(jié)束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時尚 | 時尚趨勢是如何做出來的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機(jī)身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報
致命公司多人聯(lián)機(jī)mod，漢化游戲下載使用安裝教學(xué)！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網(wǎng)下載卡在45%登錄失敗提示2045報錯/戰(zhàn)網(wǎng)一鍵下載注冊教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

GPT-4 劍指多模態(tài)，前有谷歌 PaLM-E，AI 格局要變？

GPT-4 突襲落地：三大特性吸睛

多模態(tài)模型：谷歌搶先上「前菜」

多模態(tài)模型等同「iPhone 」發(fā)布？

本文作者的其他文章

GPT-4 劍指多模態(tài)，前有谷歌 PaLM-E，AI 格局要變？的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

GPT-4 劍指多模態(tài)，前有谷歌 PaLM-E，AI 格局要變？

GPT-4 劍指多模態(tài)，前有谷歌 PaLM-E，AI 格局要變？的評論 (共條)