茅台学院酿酒工程自动化系刘赟博士
在国际期刊《IEEE Transactions
on Image Processing》发表
高水平研究成果
2022年上半年,茅台学院酿酒工程自动化系刘赟博士在多模态数据分析领域国际顶级期刊《IEEE Transactions on Image Processing》(中国科学院一区Top期刊,中国计算机学会推荐A类国际期刊,影响因子11.041)上,以茅台学院为第一单位发表了题为“Cross-Attentional Spatio-Temporal Semantic Graph Networks for Video Question Answering”的科技论文。
论文主面向人工智能领域中的视觉问答任务开展研究,提出了一个新颖的跨模态注意力时空语义图网络(CASSG)。首先,设计一个多头多跳注意力模块,用以探索视频内容和单词序列之间的交互。它旨在通过多视角和渐进式关注的方式来捕获细粒度的多模态关系。多样性和渐进性的设计使其能够产生更清晰的注意力分布。其次,基于交叉关注的多模态特征(即交叉嵌入的视频和问题表示)构建多流时空语义图。图的每个节点对应于一个视频帧、剪辑和问题单词,而节点之间的边代表两个节点之间的关联关系。通过图卷积神经网络对构造的多流异构图执行模态间和模态内相关性的同步推理。最后,由于图结构推理模型更多地关注于局部因素之间的相互作用,因此论文进一步提出了全局和局部信息融合模块,用以融合从异构图学习的局部推理向量和从另一分支学习的全局向量。利用融合后的多模态特征向量进行答案推导。
鉴于人工智能的快速发展,智能问答技术已在很多服务行业开花结果,本论文针对视觉问答研究所取得的研究成果,对于研究和开发文化茅台智能问答平台具有一定的借鉴和应用价值。(文章链接:https://ieeexplore.ieee.org/document/9686595)(刘赟)
酿酒工程自动化系
2022年9月1日