南昌大学学报(理科版)
 
2025年05月14日 星期三  首页  |  期刊社主页  |  期刊介绍  |  编 委 会  |  征稿启事  |  期刊订阅  |  联系我们
南昌大学学报(理科版)
  论文 本期目录 | 过刊浏览 | 高级检索 |
融合语义增强与多注意力机制的视频描述方法
江西省教育评估监测研究院教育融媒体建设处 南昌大学软件学院 南昌大学网络中心
全文: PDF (0 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 随着视频数据爆发式增长,视频描述任务越来越被研究者们关注。如何让计算机像人类一样理解视频的内容并能够准确无误地用语言表达出来,是视频描述任务领域尚未得到完美解决的难题之一。针对现有代表性视频描述模型中存在的未充分利用语义信息、生成描述不准确等问题,本文基于编码器-解码器框架的视频描述模型,提出了一种融合语义增强与多注意力机制的视频描述方法。该方法首先通过视觉文本特征聚合方法,为模型编码提供高层语义指导。然后,使用Faster-RCNN网络提取视频对象特征,通过图卷积网络获取视频对象的潜在语义信息,得到增强特征。最后,引入多重注意力机制,使模型更好地利用输入信息,增强模型的学习能力。MSVD和MSR-VTT数据集上的实验结果表明,相比于基准模型,本文提出的方法能合理优化视频描述模型的输入信息,有效提取视频潜在语义,从而解决视频文本跨模态问题和生成语句的语法结构问题,并能有效提升视频描述模型的准确度和对复杂场景的描述能力,更具先进性。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
任剑洪 曾勍炜 李向军 龚政 刘方
关键词 视频描述高层语义图神经网络注意力机制特征增强    
    
基金资助:国家自然科学基金项目(62262039,62262023),江西省科技创新平台项目(20181BCD40005); 南昌大学江西省财政科技专项“包干制”试点示范项目(ZBG20230418014); 江西省教育厅科学技术研究项目(GJJ2210701); 江西省教学改革重点项目(JXJG-2020-1-2); 江西省研究生创新专项资金项目(YC2023-S012,YC2023-S015,YC2023-S099); 江西省高等学校大学生创新创业训练计划项目(202210403057,202310403001X,S202310403010,S202310403037);
引用本文:   
任剑洪 曾勍炜 李向军 龚政 刘方. 融合语义增强与多注意力机制的视频描述方法[J]. 南昌大学学报(理科版), 2023, 47(6): 549-.
链接本文:  
https://qks.ncu.edu.cn/Jwk_xblxb/CN/     或     https://qks.ncu.edu.cn/Jwk_xblxb/CN/Y2023/V47/I6/549
 

版权所有 © 2011《南昌大学学报(理科版)》编辑部 
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn
赣ICP备20001624号-1