最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

Comprehending and Ordering Semantics for Image Captioning(COSnet

2023-04-10 12:49 作者:追文逐業(yè)的小研  | 我要投稿


圖像文本匹配任務(wù)定義:也稱為跨模態(tài)圖像文本檢索,即通過某一種模態(tài)實(shí)例, 在另一模態(tài)中檢索語義相關(guān)的實(shí)例。例如,給定一張圖像,查詢與之語義對應(yīng)的文本,反之亦然。具體而言,對于任意輸入的文本-圖像對(Image-Text Pair),圖文匹配的目的是衡量圖像和文本之間的語義相似程度(這也是文本生成圖像中很重要的一個(gè)點(diǎn))。
asym()不對稱損失:https://zhuanlan.zhihu.com/p/493630181
我們使用CHAIR指標(biāo)來評估robust split的標(biāo)題的圖像相關(guān)性。CHAIR度量包括兩種變體:CHAIRi (CHi)用于測量圖像的相關(guān)比例,CHAIRs (CHs)用于計(jì)算包含相關(guān)圖像部分的句子比例。
?(1) the standard methods (e.g., SGAE, UpDown, Transformer, M2 Transformer) that utilizes the pre-trained Faster R-CNN (backbone: ResNet-101) to extract visual inputs; (2) the approaches (e.g., CLIP Res101) that take the strong CLIP grid features as visual inputs. Note that for fair comparisons with our COSNet, we reimplement several upgraded variants of existing standard methods (e.g., Up-Down ?, Transformer ?, X_x0002_Transformer ?) by using the same CLIP grid features as visual inputs.
集成模型表明模型魯棒性
object hallucination (i.e., the image relevance of the generated captions) image relevance metrics (CHs and CHi) we adopt the robust split introduced in CVPR2018 ?to conduct object hallucination analysis Neural Baby Talk : This repository provides a Dockerfile for setting up all dependencies and preprocessed data for COCO experiments (normal / robust / NOC).
image: patch effect == bodding box effect
圖片和文字由于模態(tài)的異構(gòu),存在極大的語義鴻溝。圖文匹配的關(guān)鍵挑戰(zhàn)在于準(zhǔn)確學(xué)習(xí)圖片和文本之間的語義對應(yīng)關(guān)系,并度量它們的相似性。在現(xiàn)有的圖像文本匹配方法中有兩種范式: 第一種方法傾向于執(zhí)行全局級匹配,即找到文本和整個(gè)圖像之間的語義對應(yīng)。他們通常將整體圖像和文本投射到一個(gè)共同的潛在空間,然后匹配這兩種模式。(CLIP可以被分為此類,其將圖像和文本同時(shí)投影到一個(gè)計(jì)算矩陣中,計(jì)算其相似度)。 第二種范式側(cè)重于檢查局部級匹配,即圖像中的顯著區(qū)域和文本中的單詞之間的匹配。局部級別匹配考慮了圖像和文本之間的細(xì)粒度語義對應(yīng)。AttnGAN的DAMSM就是基于這個(gè)原理,其將句子的圖像和單詞的子區(qū)域映射到一個(gè)公共語義空間,從而在單詞級別測量圖像-文本相似度,以計(jì)算圖像生成的細(xì)粒度損失。 在局部級匹配的領(lǐng)域,基于注意力的匹配框架最近迅速成為主流,其關(guān)鍵思想是通過注意力關(guān)注來自另一模態(tài)的每個(gè)查詢片段的相關(guān)片段來發(fā)現(xiàn)所有單詞-圖像區(qū)域?qū)R。
數(shù)據(jù)集:Flickr30K總共有31000張圖片和155000個(gè)句子,其被分成1000張測試圖像、1000張驗(yàn)證圖像和29000張訓(xùn)練圖像。MS-COCO包含123287張圖像和616435個(gè)句子,將其分為5000張測試圖像、5000張驗(yàn)證圖像和113287張訓(xùn)練圖像。 評估指標(biāo):Recall(R@K,K=1,5,10)和rSum。R@K表示檢索到的前K個(gè)列表中的地面真相的百分比。rSum是所有R@K在圖像到文本和文本到圖像中,反映了整體匹配性能。
實(shí)現(xiàn)細(xì)節(jié):顯卡為RTX 3090Ti GPU,優(yōu)化器為Adam,初始學(xué)習(xí)率為0.0005,每10個(gè)周期衰減10%。Flickr30K和MSCOCO的最小批量大小分別設(shè)置為128和256,兩個(gè)數(shù)據(jù)集上都有20個(gè)epoches,特征尺寸d被設(shè)置為1024。λ設(shè)置為20,α設(shè)置為2.0,γ設(shè)置0.2。 COCO 采樣樣本數(shù)==batchsize->256 ? Flicker30 采樣樣本數(shù)==batchsize->128 ? ? some tricks ? 超參數(shù)由experiment得到


Comprehending and Ordering Semantics for Image Captioning(COSnet的評論 (共 條)

分享到微博請遵守國家法律
上栗县| 江陵县| 中山市| 大余县| 攀枝花市| 基隆市| 巴林左旗| 芜湖市| 南平市| 沅陵县| 青川县| 云南省| 金山区| 东海县| 永泰县| 长兴县| 齐齐哈尔市| 绥芬河市| 林甸县| 花莲县| 九龙城区| 定日县| 大邑县| 安乡县| 合肥市| 海林市| 延边| 大英县| 神农架林区| 隆回县| 高邮市| 明星| 梁平县| 洞口县| 抚顺县| 三原县| 东乡县| 台北县| 平舆县| 新竹县| 遵义县|