小视科技夺冠！大模型竞赛“一冠一季”收入囊中 | CVPR 2023 VIZWIZ Grand Challenge-小视科技（江苏）股份有限公司

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 | CVPR 2023 VIZWIZ Grand Challenge

公司新闻 2023-07-04 7029 阅读

近日，CVPR 2023 VIZWIZ Grand Challenge Workshop 竞赛成绩公布。小视科技参赛团队在显著性目标检测赛道获得第一名，在视觉问答赛道中获得第三名。

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 1.png

小视团队夺得显著性目标检测赛道冠军

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 2.jpg

小视团队夺得视觉问答赛道季军

01 VizWiz Grand Challenge 双赛道获“一冠一季”

CVPR是世界顶级的计算机视觉会议三大顶会之一，由IEEE主办，有着计算机视觉领域“奥斯卡”的美誉。本届VIZWIZ Grand Challenge Workshop 是由微软、苹果和科罗拉多大学博尔德分校等共同在CVPR上举办的国际性赛事。

这项比赛旨在解决视力障碍人群提出的需求，通过提升视觉算法的精度，满足他们对感知周围环境的需求，进而促使计算机视觉社区合作开发辅助技术的算法。

02 显著性目标检测赛道小视冠军方案

显著性目标检测是CV领域的一项重要任务，旨在识别图片中最具显著性的目标物体或区域，让计算机理解图像中的哪些部分是人们关注的重点。

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 3.png

官方提供的数据集，图片均由视障人士拍摄

官方数据集包括训练集19116张图片、验证集6105张图片、测试集6779张图片。

我们使用多模态模型预测得到显著图像的描述，如下图food，扩散模型根据描述在对应的位置生成目标，再分割得到生成图像对应的mask。利用这种方式能够有效的生成大量高质量的数据，增加数据的多样性。

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 4.png

生成图像及其mask的流程

我们以SelfReFormer作为基础框架，利用视觉大模型预训练权重提升了图像编码器（ImageEncoder）特征提取的能力。

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 5.png

图像编码器参数量对比

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 6.png

SelfReformer模型架构图

通过加入T2T模块的转化，将多个尺度特征进行融合，增加了模型对显著性目标的鉴别能力，带来了稳定的涨点。

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 7.png

T2T模块多尺度示意图

除此之外，我们利用投票机制进行模型选择，最终融合了SwinTransFormerv2和Dinov2两个编码器的结果。其他的trick比如二值化阈值调整、不同尺寸的腐蚀操作都会有微小的涨点。

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 8.png

我们的方案共有Sm、Em、Iou三项指标位列第一，总排名第一。

03 视觉问答赛道小视季军方案

视觉问答任务要求模型理解问题的语义、图像的视觉内容以及两者之间的关系，回答基于图像的问题。

VIZWIZ VQA数据集中，每个问题都收集了10个人的回答。采集的图片存在拍摄场景不完整、模糊或不清晰，收集的问题和回答也较为口语化。

官方提供了20523个图片-问题对作为训练集，4319个作为验证集，8000个作为测试集。

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 9.png

官方数据集

数据增广上，我们使用与显著性赛道相似的方式增加数据的多样性，使用多模态大模型生成对应的问题-答案对，有效扩充了图片和语料数据。

我们以Blip2作为基础框架。对语料进行了prompt增强，对视觉和语言大模型结合的部分Q-Former进行微调，LLM部分适配T5，VIT-L, VIT-G等多种大模型预测回答的结果，最终基于投票机制对多个模型的预测结果进行融合。

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 CVPR 2023 VIZWIZ Grand Challenge 10.png

Blip2模型架构图

在本次比赛中，我们不仅丰富了在视觉大模型领域的技术栈，更是基于大模型强大的特征表示和模式识别能力，提升了生产算法在目标检测、追踪、分类，分割任务上的精度和场景泛化性，加速了我们的算法在各种复杂场景下的落地和实际应用能力。

比赛落幕，小视团队在全球AI开发者面前充分展示了自身的技术硬实力。

“一冠一季”的好成绩收入囊中后，小视团队希望能为计算机视觉技术的发展，尤其是大模型应用探索更多的落地空间，为AI惠及智慧城市、工业生产、机器人等领域积累更多技术储备。

应用方案升级中

新闻中心