散文網(wǎng) » 生活 »日常 » 語言模型與視覺生態(tài)如何協(xié)同？合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)

語言模型與視覺生態(tài)如何協(xié)同？合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)

2023-10-18 19:08 作者:ITtimes 0人讀過 | 我要投稿

作者：林斐來源：IT時報

隨著信息渠道的多樣化發(fā)展，異構(gòu)化、跨模態(tài)的數(shù)據(jù)層出不窮。文檔圖像是文字與圖片領(lǐng)域的交集點(diǎn)，天然具備多模態(tài)屬性。在2023年中國模式識別與計算機(jī)視覺大會（PRCV）的“視言碰撞：語言模型與視覺生態(tài)協(xié)同論壇”上，合合信息圖像算法研發(fā)總監(jiān)郭豐俊表示，多模態(tài)技術(shù)可充分利用文檔圖像的視覺和語言屬性，并借助語言大模型已取得的優(yōu)異性能和技術(shù)積累，正逐漸成為文檔圖像處理領(lǐng)域的熱門研究方向。

“從目前評測的情況來看，已知的多模態(tài)預(yù)訓(xùn)練系統(tǒng)在文檔圖像識別準(zhǔn)確率上還遜于最先進(jìn)的OCR識別系統(tǒng)。”郭豐俊提到，合合信息-華南理工大學(xué)文檔圖像分析識別與理解聯(lián)合實(shí)驗(yàn)室對該方向展開了研究，并在數(shù)據(jù)高效利用及垂直領(lǐng)域識別項(xiàng)目中取得了階段性成果。

大模型技術(shù)的突破讓生成式AI擁有了更廣泛的落地空間，也讓圖片偽造的門檻變得更低，給了不法分子可乘之機(jī)。大會現(xiàn)場，郭豐俊對合合信息在AI圖像安全方面的工作進(jìn)行了分享。據(jù)介紹，合合信息智能文檔處理技術(shù)覆蓋了圖像預(yù)處理、解析識別到AI安全等文檔圖像處理全生命周期，圖像篡改檢測技術(shù)不僅能夠應(yīng)用于自然場景，還能應(yīng)用于資質(zhì)證書、文檔合同、銀行保單等截圖的鑒別上。針對圖片生成式造假，合合信息基于空域與頻域關(guān)系建模，利用多維度特征來分辨真實(shí)圖片和生成式圖片的細(xì)微差異，判斷圖片是否由AI生成。

今年8月，合合信息獲得了文檔分析與識別國際會議（ICDAR 2023）“文本篡改檢測”賽道冠軍。合合信息技術(shù)團(tuán)隊(duì)提出的方案能夠在保持低誤檢率的同時，準(zhǔn)確識別并定位圖片中文本的篡改行為，從而有效保障文本信息的真實(shí)性。相關(guān)方案已在銀行、證券、保險多個場景中應(yīng)用。

“目前，圖像篡改檢測技術(shù)的應(yīng)用也面臨著篡改手段不斷變化、場景復(fù)雜等系列挑戰(zhàn)，不斷提升檢測系統(tǒng)的魯棒性和泛化能力，是學(xué)術(shù)界與企業(yè)界需要深入合作的重要方向?！惫S俊表示，合合信息已聯(lián)合中國信通院，發(fā)起了《文本圖像篡改檢測系統(tǒng)技術(shù)規(guī)范》標(biāo)準(zhǔn)制定，希望持續(xù)推動AI技術(shù)在圖像安全領(lǐng)域的廣泛應(yīng)用，帶給用戶更加安全、高效的工作和生活體驗(yàn)。

標(biāo)簽：

語言模型與視覺生態(tài)如何協(xié)同？合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

語言模型與視覺生態(tài)如何協(xié)同？合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)

語言模型與視覺生態(tài)如何協(xié)同？合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

語言模型與視覺生態(tài)如何協(xié)同？合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)

本文作者的其他文章

語言模型與視覺生態(tài)如何協(xié)同？合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

語言模型與視覺生態(tài)如何協(xié)同？合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)的評論 (共條)