加入收藏 | 设为首页 |

以撒的结合-科大讯飞夺冠2019年度计算机视觉尖端会议CVPR和ICDAR多项评测

海外新闻 时间: 浏览:405 次

科大讯飞A.I.研讨院联合中科大语音及言语信息处理国家工程实验室(NELSLIP)(以下统称为讯飞-中科大联合团队)在近期举行的计算机视觉尖端会议CVPR 2019和文档剖析与辨认尖端会议ICDAR 2019上的多项评测任务中取得冠军:

1. 在计算机视觉与模式辨认世界会议(CVPR 2019)举行的物体检测应战赛DIW 2019(D以撒的结合-科大讯飞夺冠2019年度计算机视觉尖端会议CVPR和ICDAR多项评测etection in the Wild challenge Workshop 2019)上取得Objects365 Tiny Track榜首,Objects365 Full Track第三的佳绩;

2. 在文档剖析与辨认世界会议(ICDAR 2019)举行的以撒的结合-科大讯飞夺冠2019年度计算机视觉尖端会议CVPR和ICDAR多项评测多项赛事中,包办手写数学公式辨认应战赛CROHME(Competition on Recognition of Handwritten Mathematical Expressions)悉数两项任务以及场景文本视觉问答应战赛ST-VQA(Scene Text Visual Question Answering)应战赛上悉数三项任务冠军,此外还取得了街景招牌中文文本辨认应战赛ReCTS(Reading Chinese Text on Signboard)单字辨认任务冠军。

这一系列的佳绩标志着科大讯飞在计算机视觉范畴的堆集日益深沉,一向坚持着先进的水平缓探究的脚步。

DIW 2019应战赛

DIW 2019应战赛由旷视科技与北京智源人工智能研讨院一起举行,该项赛事招引了包括腾讯、百度、字节跳动等300多支队伍参赛,其所选用的Objects365数据集包括63万张图画,高达1000 万人工标示框,掩盖365个日常物体类别,可谓最大通用物体检测数据集

比较于我们熟知的ImageNet和COCO数据集,Objects365数据集更靠近天然场景,掩盖更多的类别而且供给了更密布的标示,因为数据散布极度不均衡,因而极大添加了竞赛的难度,对算法提出了更高的要求。

作为计算机视觉的两项根底任务,物体检测和切割一向以来是以撒的结合-科大讯飞夺冠2019年度计算机视觉尖端会议CVPR和ICDAR多项评测业界干流的研讨方向。科大讯飞团队在2018年10月改写了世界自动驾驭威望评测Cityscapes悉数两项子任务(驾驭场景语义切割和实例切割)的世界纪录。

在本次DIW2019竞赛中,讯飞-中科大联合团队在以往视觉技能堆集的根底上,针对该项任务中物体标准多样性和样本数量散布不均衡的特色,对物体检测的经典结构Faster-RCNN进行针对性改善:混合样本数据增强战略提高网络的泛化才能;多级可变形卷积使得网络的感触野可以愈加习惯相应标准下的候选框;级联检测计划逐步提高了候选框的质量。此外针对更具应战性的Tiny Track任务(样本数量小),搬迁Objects365 Full Track模型提高Objects365 Tiny Track的功能,并交融两个赛道模型进一步提高了Full Track的检测作用。

物体检测和切割在工业界相同具有广泛的运用远景,科大讯飞在这两项根底任务上的技能堆集不只确保团队在各项赛事中继续坚持竞争力,也为运用落地供给了厚实的技能确保,无论是讯飞翻译机中的图文辨认,医疗印象范畴中的辅佐确诊,以及视频结构化技能中的视频了解等,都蕴含着科大讯飞对中心技能的不懈追求和对运用落地的坚决决计。

CROHME 应战赛

在2018年的ICPR MTWI图文辨认应战赛中科大讯飞A.I.研讨院包办了悉数三项任务的冠军,充分说明了科大讯飞在天然场景文字辨认技能上的抢先性。本次讯飞-中科大联合团队挑选应战难度更高的手写数学公式辨认任务CROHME。该项赛事由美国罗切斯特理工学院(Rochester Institute of Technology)担任承办,招引了My、三星、 WIRIS(MathType)、中科院自动化所、中山大学等多家在手写数学公式辨认范畴闻名的国内外研讨机构参与。

讯飞-中科大联合团队参与了在线手写数学公式辨认(Online Handwritten Mathematical Expressions Recognition)和离线手写数学公式辨认(Offline Handwritten Mathematical Expressions Recognition)的两项主要任务,这两项任务的不同之处在于,前者的输入为手写数学公式的笔划轨道,它记录了笔划书写的先后次序,常运用于实时的在线手写辨认运用场景,在线手写辨认体系需求搜集用户在手机、平板等在线化输入设备上书写的字符轨道作为体系输入;后者的输入则为手写数学公式的图画,常运用于摄影、以撒的结合-科大讯飞夺冠2019年度计算机视觉尖端会议CVPR和ICDAR多项评测扫描等离线手写辨认运用场景,该场景下用户只需求将手写字符的相片送入离线手写辨认体系中即可完结剖析与辨认。

在线数学公式(手写轨道)

离线数学公式(静态图画)

CROHME 2019运用的数据集是由美国罗切斯特理工学院搜集和标示的手写数学公式,其间操练集共9993个,验证集共986个,测验集共1199个,此次竞赛不只要求参赛体系辨认出公式中的每个字符,还要求参赛体系给出被辨认的字符之间的方位联系,因而,比较于惯例OCR任务,该任务的难点在于:

1) 方位联系

方位联系不再仅仅惯例OCR任务中单一的左右或许上下的联系,还存在笔直、包括、上下标等多种结构联系以及这些结构联系之间的组合嵌套;

2) 字符尺度

数学公式中的字符尺度差异较惯例OCR任务更大;

3) 书写风格

书写者的书写风格会使得某些不同字符之间简单发生混杂,且相同的字符由不同书写者书写,不只字符形状差异可能会很大,关于在线任务来说,其笔划轨道的次序也有可能会不一致;

科大讯飞在手写文字辨认范畴已深耕多年。与将字符辨认和方位联系辨认别离建模的传统数学公式辨认思路不同,科大讯飞运用的参赛体系正是学习了手写文字辨认技能中根据空间注意力机制的Encoder-Decoder思维,完成了数学公式的字符和方位联系的端到端辨认,一起提出了多标准空间注意力机制以处理由字符尺度差异较大带来的辨认字符丢掉问题。此外,针对不同书写者书写风格悬殊的问题,提出了空间注意力引导机制和时刻注意力机制,从空间和时刻两个维度上提高注意力的准确度,终究交融了多种不同模态的信息提高了体系终究决议计划的作用。

根据雄厚的人工智能中心技能,科大讯飞在运用范畴正活跃落地。特别在教育范畴,以职业抢先的高精准手写辨认技能、智能评测技能为典型运用代表的智能评卷体系,现在现已在CET、多地中高考中完成了人机结合的智能辅佐评分新方法,最大极限的确保了评卷质量。一起,在日常教育环节中,根据对每一个学生个别作业操练测验的精准辨认和深度数据发掘,科大讯飞形成了以数据驱动方法完成的个性化精准教育。经过图文辨认、智能评测剖析每个学生的常识把握薄弱环节,针对性地完成个性化学习引荐,让每个孩子回家后有针对自己才能水平的不同家庭作业,让每个教师有更多的时刻推动对症下药。

ST-VQA应战赛

ST-VQA(Scene Text Visual Question Answering)是由CVC(Computer Vision Center)举行的一项视觉问答应战赛,要求算法可以像人类相同解析图画中实体之间的联系,并正确地答复出问题。这一方面临算法的图画检测和切割等前端技能提出了要求;另一方面还需求算法具有多模态数据交融、了解和推理的才能,是未来人工智能的开展方向之一。

如在下图的场景中为了找出蓝色公交车的目的地,首要需求正确地辨认出蓝色公交车的方位,并推理出公交车的目的地显现在公交车前方的电子显现屏上,终究需求算法辨认出电子显现屏上的内容。

ST-VQA竞赛一共分为三个任务,别离为Task1-Strongly Contextualized、Task2-Weakly Contextualized和Task3-Open Dictionary,这三项任务的不同之处在于Task1会对每张图画给定一个候选词表,Task2会对整个数据集给定一个候选词表,而Task3则没有额定的词表用于辅佐答案的猜测。这三个任务的难度逐步添加,讯飞-中科大联合团队参与了悉数三项竞赛,并包办冠军。

针关于此次参与的ST-VQA任务,讯飞-中科大联合团队将模型分为视觉了解前端模型和视觉推理后端模型。文本检测和物体检测模型作为前端模型从图画中提取出有用实体,此外针对数据会集的语料少的问题,学习了科大讯飞在SQuAD2.0评测任务上选用无监督预操练模型的思维并加以改善,成功融入到了前端模块中。

在后端网络的规划上,团队规划了相应的Encoder-Decoder模型用于交融上述从图画中提取得到的实体信息和问题数据并猜测出答案,此外在Encoder-Decoder模型的规划过程中交融了多任务的规划思维,使其可以兼容三项任务,然后使得这三项任务可以一起操练,彼此提高。参与ST-VQA竞赛,是讯飞在视觉了解以及多模态数据交融方面的前瞻性探究,竞赛中运用的技能为公司未来在多模态交互方面的开展打下了根底。

作为亚太地区闻名的智能语音与人工智能上市公司,围绕着讯飞超脑,科大讯飞一向秉承技能顶天、产品落地的战略理念,在中心技能上不断创新。根据此,科大讯飞在智能语音、天然言语处理等范畴硕果累累,也在视觉场景了解范畴取得长足进步,而且活跃推动相关赛道技能落地,在教育、医疗、政法等事务上现已取得了很好的成效。未来,讯飞将全面继续推动中心技能的优化迭代与落地运用,尽力饯别用人工智能建造美好世界的公司任务。

想你的夜