近日,人工智能领域的顶级会议 The 40th Annual AAAI Conference on Artificial Intelligence (AAAI 2026) 公布了论文接收结果,我校计算机学院、人工智能学院共有8篇论文成功入选。
人工智能国际会议(Association for the Advancement of Artificial Intelligence,简称AAAI)是人工智能领域历史悠久、学术影响力广泛的顶级国际会议之一,也是中国计算机学会(CCF)推荐的A类会议,聚焦智能体、知识表示、机器学习、自然语言处理、计算机视觉等方向的前沿研究,致力于推动人工智能基础研究与应用创新的跨学科突破与发展。AAAI 2026将于2026年1月20日至27日在新加坡举行。
本次录用的8篇论文研究内容涵盖语音生成、知识图谱、大语言模型、视觉基础模型、开放词汇目标检测、知识追踪、情感计算等,以下为论文简述。
论文题目:Towards Authentic Movie Dubbing with Retrieve-Augmented Director-Actor Interaction Learning 作者:刘瑞 教授 (内蒙古大学)、赵源 (内蒙古大学25级博士研究生)、贾真琦 (内蒙古大学25级博士研究生) 论文简介:自动电影配音模型能根据给定剧本生成生动语音,通过简短的音色提示还原说话人的音色,同时确保与无声视频的口型同步。现有方法模拟了演员直接配音且无需准备的简化流程,忽略了关键的导演 - 演员互动环节。相比之下,真实配音流程涉及动态协作:导演会积极与演员沟通,引导他们在配音前内化语境线索,尤其是情感层面的线索。为解决这一问题,我们提出一种新的检索增强型导演 - 演员互动学习方案,以实现真实感电影配音,该方案被命名为Authentic-Dubber,包含三大创新机制:构建多模态参考素材库,模拟导演提供的学习素材。通过整合大型语言模型(LLMs),实现对跨模态信号情感表征的深度理解。提出基于情感相似度的检索增强策略,模拟演员在配音过程中高效、全面内化导演提供素材的过程。该策略会检索与目标无声视频最相关的多模态信息。开发基于渐进式图结构的语音生成方法,逐步融入检索到的多模态情感知识,从而模拟演员的最终配音过程。上述机制使 Authentic-Dubber 能够忠实复刻真实配音流程,在情感表现力上实现全面提升。在 V2C-Animation 基准数据集上的主观和客观评估均验证了该方案的有效性。 |
 |
|
论文题目:Graph Neural Field with Spatial-Correlation Augmentation for HRTF Personalization 作者:呼德 研究员 (内蒙古大学)(通讯作者)、胡俊升 (内蒙古大学硕士研究生)、姜翠翠 (内蒙古大学硕士研究生) 论文简介:为了在虚拟现实/增强现实等设备中实现沉浸式3D音频渲染,高质量的头相关传递函数(Head Related Transfer Function, HRTF)不可或缺。然而,HRTF的测量费时且费力。同时,HRTF不仅依赖声源位置,还与头围、躯干、耳型等人体特征强相关。为了给新用户快速生成个性化HRTF,我们提出了一种空间相关性增强的图神经场(Graph Neural Field with Spatial-Correlation Augmentation, GraphNF-SCA)模型,其包含三个核心部分:(i) HRTF个性化模块、(ii) HRTF上采样模块、(iii) 微调阶段。在个性化模块中,通过一种编码器-解码器架构的图神经网络进行目标用户的个性化HRTF预测;上采样模块则采用另一图神经网络实现了HRTF的空间插值,其有效学习了HRTF数据在空间上的相关性;最后,将个性化模块的输出喂给上采样模块,再对后者进行微调,进而强化了个性化HRTF在空间上的相关性。与现有方法相比,GraphNF-SCA通过有效挖掘HRTF之间固有的空间相关特性,显著提升了HRTF个性化性能。实验结果表明,所提方法在多个HRTF数据集上均达到了最优性能。 |
 |
论文题目:FlorE: Integrating Full Lorentz Group and Directional Offsets for Effective Knowledge Graph Embedding 作者:多泽华, 李江, 苏向东*, 高光来 论文简介:本文聚焦知识图谱嵌入在复杂关系上的推理能力提升,针对现有欧氏/复数/双曲空间方法难以建模的 Z-Paradox 关系模式,提出 FlorE 框架。FlorE 框架将关系映射从正Lorentz 群拓展到完备 Lorentz 群,使同一关系可执行不定度量下的等距变换,有效避免实体在流形中的映射重叠与由此导致的尾实体混淆。同时,我们基于指数映射设计了定向偏移操作,把关系与实体统一到同一 Lorentz 流形,实现几何一致的表示学习;两项技术的协同,使模型在Z-Paradox关系模式上具备更强的区分与表达能力。在五个基准数据集 WN18RR、FB15k-237、CoDEx-S/M/L 上,FlorE 总体达成或刷新现有最优表现。尤其针对 Z-Paradox 关系,方法相对强基线在各数据集上的提升幅度分别达到 26.7%、15.6%、35.4%、33.7%、31.5%,验证了所提几何建模思路的有效性与稳健性。图中展示了对两个 Z-Paradox 关系的尾实体嵌入进行可视化对比,采用完备洛伦兹群的模型显著提升了类间分离度与判别性。 |
 |
|
论文题目: C-GNN-PRUNE: A Unified Graph-Based Framework for Structure-Aware Pruning of Mixture-of-Experts Models 作者:李林(内蒙古大学硕士研究生)、王燕(内蒙古大学)(通讯作者)、王卓鹏(内蒙古大学硕士研究生) 论文简介:稀疏专家混合(MoE)结构在扩展大型语言模型(LLMs)方面展现出卓越的计算效率,但其庞大的参数规模仍然制约了部署效率。现有剪枝方法多忽视专家间的结构依赖与层间异质性,导致剪枝后性能退化与结构破坏。针对上述问题,本文提出统一的结构感知剪枝框架 C-GNN-PRUNE,通过图神经网络(GNN)建模专家间的交互关系,实现基于结构的专家选择与压缩。该框架首先设计基于熵的层级剪枝分配策略,根据专家激活分布熵自适应分配剪枝预算;随后构建专家交互图,融合输出相似度与路由差异信息,经由两阶段GNN学习结构感知嵌入;再通过社区检测机制识别功能冗余的专家簇,并在簇内基于激活频率执行保留与裁剪,从而在稀疏性与表达力间取得平衡。在 DeepSeek-V2-Lite、Qwen1.5-MoE-A2.7B 与 Mixtral-8×7B 三个开源模型上的实验结果表明,C-GNN-PRUNE 在不同剪枝率下均能显著提升压缩后的模型性能稳定性与任务泛化能力。与 C-PRUNE、EEMoE、Wanda 等方法相比,本方法在平均任务精度上最高提升达 4.3 个百分点,在保持高压缩比的同时有效维持模型表达多样性。该研究为实现结构保持、低资源开销的 MoE 模型压缩提供了一种统一且可扩展的解决方案。 |
 |
|
论文题目:Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation 作者:张印(哈尔滨工业大学21级博士生),张永强(内蒙古大学)*,郑尧月(西安交通大学21级博士生),Bogdan Raducanu(巴塞罗那自治大学),刘丹(哈尔滨工业大学) 单位:哈尔滨工业大学仪器科学与工程学院,巴塞罗那自治大学计算机视觉中心,内蒙古大学计算机学院 论文简介:在域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)任务中,仅微调视觉基础模型(Vision Foundation Models, VFMs)的少量参数就可以显著的提升DGSS的性能。现有的方法通常通过训练轻量级adapters或优化中间层特征来提升模型在未知域上的泛化能力。然而,这些方法往往忽视了一个关键问题:预训练的VFMs常常会产生特征伪影,这些伪影会阻碍VFMs中有价值feature的利用,从而削弱DGSS的性能。受因果机制的启发,本文发现这些伪影与非因果因素相关,而这些非因果因素通常存在于VFMs特征谱的低频和高频部分。本文针对DGSS任务,显式地分析了VFMs特征中的因果与非因果因素,并提出了一种简洁而高效的方法来识别并解耦二者,从而实现更稳健的域泛化。为此,本文提出了Causal-Tune——一种新颖的微调策略,旨在从VFMs特征中提取因果因素并抑制非因果因素。首先,本方法利用离散余弦变换(Discrete Cosine Transform, DCT)提取每一层特征的频谱;随后,采用高斯带通滤波器将频谱划分为因果与非因果部分。为了进一步优化因果部分,本方法在频域中引入了一组因果感知的可学习tokens来进行特征增强,而非因果部分则被丢弃。最后,将优化后的因果特征通过逆DCT转换回空间域,并输入下一层。本方法在大量跨域实验中验证了Causal-Tune的有效性,尤其在恶劣天气条件下表现突出,如雪天场景中相比基线方法mIoU提升了4.8%。 |
 |
|
论文题目:Tensor Decomposition and Language Description for Open-Vocabulary Object Detection 作者:梁秋雨(内蒙古大学24级博士研究生),张永强(内蒙古大学)* 论文简介:开放词汇目标检测(Open-vocabulary Object Detection,OVOD)旨在突破固定类别限制,实现对未见目标的检测与识别。虽然现有研究基于区域-词语对齐(region-word alignment)和知识蒸馏(knowledge distillation)方面取得了进展,但其性能仍受三大问题制约:区域与词语对齐不精确、知识蒸馏存在冗余传递,以及类别嵌入表示质量较低。针对上述问题,本文提出了一种结合张量分解(Tensor decomposition)与语言描述(Language descriptions)的新颖的开放词汇目标检测框架,TLDet。在传统方法中,最高相似度得分的候选框常聚焦于判别性强但局部不完整的区域(如仅包含目标头部),导致区域-词语对齐偏差。为此,本文提出了低秩候选框筛选模块,通过奇异值分解计算候选框特征矩阵的奇异值之和,定量衡量其结构完整性,从而筛除判别性强但不完整的区域,显著提升视觉区域与文本语义之间的对齐精度。为避免知识蒸馏过程中的信息冗余,TLDet进一步引入核心张量蒸馏方法。该方法基于 Tucker 分解,将教师模型与学生模型的特征映射为核心张量,通过核心张量的优化对齐,实现高效且有选择性的知识迁移,使学生模型能够聚焦于教师模型中的关键特征表示。此外,为增强类别语义嵌入的表达能力,本文设计了语言描述增强机制。该机制在推理阶段引入大语言模型(LLM)的语义知识,通过生成丰富的类别语言描述,弥补开放词汇场景中长尾类别和模糊类别的语义缺失问题,从而提升类别嵌入的区分性与泛化能力。在 COCO 与 LVIS 主流开放词汇目标检测数据集上的实验结果表明,TLDet 在新类别检测任务中表现突出,分别取得 36.1% 的 mAP 和 30.1% 的 mask mAP,显著超越现有开放词汇检测方法,验证了其在开放世界视觉理解中的有效性与优越性能。 |
 |
|
论文题目:HISE-KT: Synergizing Heterogeneous Information Networks and LLMs for Explainable Knowledge Tracing with Meta-Path Optimization 作者:段智议(内蒙古大学研究员),史子星(内蒙古大学2024级硕士研究生),袁宏宇(内蒙古大学2025级博士研究生),王琪(吉林大学副教授) 论文简介:知识追踪(KT)旨在挖掘学生知识状态的演变轨迹,并预测其未来的问题回答表现。然而,现有基于异构信息网络(HINs)的方法容易因元路径的手动或随机选择而引入噪声,且缺乏对元路径实例的必要质量评估。同时,基于大型语言模型(LLMs)的方法则忽视了跨学生的丰富信息,两种范式都难以持续提供准确且基于证据的解释。为解决这些问题,本文提出了一种创新的HIN-LLM协同增强的知识追踪框架(HISE-KT),该框架实现了HINs与LLMs的无缝整合。HISE-KT首先构建包含多种节点类型的多关系HIN,通过多条元路径捕捉结构化关联。随后运用LLM智能评分和筛选元路径实例,保留高质量路径,开创了元路径质量自动评估的先河。受教育心理学原理启发,本文设计了基于元路径的学生检索机制,为预测提供更有价值的上下文信息。针对四个公开数据集的实验表明,HISE-KT在预测性能和可解释性方面均优于现有KT基线模型。本文的研究通过将HINs与LLMs协同融合,为发展透明、自适应的教育人工智能建立了新范式。 |
 |
|
论文题目:Advancing Multimodal Teacher Sentiment Analysis: The Large-Scale T-MED Dataset & The Effective AAM-TSA Model 作者:段智议(内蒙古大学研究员),王祥任(内蒙古大学2024级硕士研究生),袁宏宇(内蒙古大学2025级博士研究生),邢千里(吉林大学副教授) 论文简介:教师的情绪状态在教育场景中至关重要,深刻影响教学效果、学生参与度和学习成绩。然而,由于教师情绪的演绎性,现有研究往往无法准确捕捉教师情绪,忽视了教学信息对情绪表达的关键影响。本研究通过相应地构建数据集和模型来系统地研究教师情绪分析。本研究构建了第一个大规模教师多模态情感分析数据集 T-MED。为了确保标记的准确性和效率,本研究采用了人机协作标记流程。T-MED 数据集包含来自 250 个真实教室的 14,938 个教师情感数据实例,涵盖从 K-12 到高等教育的 11 个学科,集成了多模态文本、音频、视频和教学信息。此外,本研究提出了一种新颖的基于非对称注意力的多模态教师情感分析模型AAM-TSA。AAM-TSA引入了非对称注意力机制和分层门控单元,以实现差异化的跨模态特征融合和精确的情感分类。实验结果表明,AAM-TSA 在 T-MED 数据集上的准确性和可解释性方面显著优于现有的最先进方法。 |
 |
供稿:计算机学院(软件学院) 编辑:武涛 审核:李文娟 终审:阿茹娜