語言模型與視覺生態(tài)如何協(xié)同?合合信息瞄準(zhǔn)“多模態(tài)”技術(shù)
作者:林斐 來源:IT時報
隨著信息渠道的多樣化發(fā)展,異構(gòu)化、跨模態(tài)的數(shù)據(jù)層出不窮。文檔圖像是文字與圖片領(lǐng)域的交集點(diǎn),天然具備多模態(tài)屬性。在2023年中國模式識別與計算機(jī)視覺大會(PRCV)的“視言碰撞:語言模型與視覺生態(tài)協(xié)同論壇”上,合合信息圖像算法研發(fā)總監(jiān)郭豐俊表示,多模態(tài)技術(shù)可充分利用文檔圖像的視覺和語言屬性,并借助語言大模型已取得的優(yōu)異性能和技術(shù)積累,正逐漸成為文檔圖像處理領(lǐng)域的熱門研究方向。

“從目前評測的情況來看,已知的多模態(tài)預(yù)訓(xùn)練系統(tǒng)在文檔圖像識別準(zhǔn)確率上還遜于最先進(jìn)的OCR識別系統(tǒng)。”郭豐俊提到,合合信息-華南理工大學(xué)文檔圖像分析識別與理解聯(lián)合實(shí)驗(yàn)室對該方向展開了研究,并在數(shù)據(jù)高效利用及垂直領(lǐng)域識別項(xiàng)目中取得了階段性成果。
大模型技術(shù)的突破讓生成式AI擁有了更廣泛的落地空間,也讓圖片偽造的門檻變得更低,給了不法分子可乘之機(jī)。大會現(xiàn)場,郭豐俊對合合信息在AI圖像安全方面的工作進(jìn)行了分享。據(jù)介紹,合合信息智能文檔處理技術(shù)覆蓋了圖像預(yù)處理、解析識別到AI安全等文檔圖像處理全生命周期,圖像篡改檢測技術(shù)不僅能夠應(yīng)用于自然場景,還能應(yīng)用于資質(zhì)證書、文檔合同、銀行保單等截圖的鑒別上。針對圖片生成式造假,合合信息基于空域與頻域關(guān)系建模,利用多維度特征來分辨真實(shí)圖片和生成式圖片的細(xì)微差異,判斷圖片是否由AI生成。
今年8月,合合信息獲得了文檔分析與識別國際會議(ICDAR 2023)“文本篡改檢測”賽道冠軍。合合信息技術(shù)團(tuán)隊(duì)提出的方案能夠在保持低誤檢率的同時,準(zhǔn)確識別并定位圖片中文本的篡改行為,從而有效保障文本信息的真實(shí)性。相關(guān)方案已在銀行、證券、保險多個場景中應(yīng)用。
“目前,圖像篡改檢測技術(shù)的應(yīng)用也面臨著篡改手段不斷變化、場景復(fù)雜等系列挑戰(zhàn),不斷提升檢測系統(tǒng)的魯棒性和泛化能力,是學(xué)術(shù)界與企業(yè)界需要深入合作的重要方向?!惫S俊表示,合合信息已聯(lián)合中國信通院,發(fā)起了《文本圖像篡改檢測系統(tǒng)技術(shù)規(guī)范》標(biāo)準(zhǔn)制定,希望持續(xù)推動AI技術(shù)在圖像安全領(lǐng)域的廣泛應(yīng)用,帶給用戶更加安全、高效的工作和生活體驗(yàn)。