阅读的跨模态检索相关论文合集

2022-03-16更新

论文的note及总结在mendeley里,缺点是不好导出,有空手动搞出来再更新。

梳理

数据集和benchmark

常用的是MSCOCO和Flickr30k数据集,数据量多,且图像:文本为1:5,操作空间大。
对性能评估的讨论基本是围绕Recall@k展开,其中I2T的Recall普遍比

paperswithcode的检索Flickr30K数据集benchmark

SCAN:Stacked Cross Attention for Image-Text Matching-CVPR 2018