Page 466 - 《软件学报》2025年第10期
P. 466
孙锐 等: 隐式多尺度对齐与交互的文本-图像行人重识别方法 4863
978-3-031-25072-9_42]
[43] Li JN, Li DX, Xiong CM, Hoi S. BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and
generation. In: Proc. of the 39th Int’l Conf. on Machine Learning. 2022. 12888–12900.
[44] Bao LP, Wei LH, Zhou WG, Liu L, Xie LX, Li HQ, Tian Q. Multi-granularity matching Transformer for text-based person search. IEEE
Trans. on Multimedia, 2024, 26: 4281–4293. [doi: 10.1109/TMM.2023.3321504]
[45] Kim W, Son B, Kim I. ViLT: Vision-and-language Transformer without convolution or region supervision. In: Proc. of the 38th Int’l
Conf. on Machine Learning. 2021. 5583–5594.
[46] Li JN, Selvaraju RR, Gotmare AD, Joty S, Xiong CM, Hoi SCH. Align before fuse: Vision and language representation learning with
momentum distillation. In: Proc. of the 35th Int’l Conf. on Neural Information Processing Systems. Curran Associates Inc., 2021.
9694–9705.
附中文参考文献:
[2] 杨婉香, 严严, 陈思, 张小康, 王菡子. 基于多尺度生成对抗网络的遮挡行人重识别方法. 软件学报, 2020, 31(7): 1943–1958. http://
www.jos.org.cn/1000-9825/5932.htm [doi: 10.13328/j.cnki.jos.005932]
孙锐(1976-), 男, 博士, 教授, CCF 专业会员, 主 陈龙(2000-), 男, 硕士生, 主要研究领域为图像
要研究领域为机器学习, 计算机视觉. 信息处理, 计算机视觉.
杜云(1998-), 女, 硕士生, 主要研究领域为图像 张旭东(1966-), 男, 博士, 教授, 主要研究领域
信息处理, 计算机视觉. 为智能信息处理, 机器视觉.

