内蒙古大学蒙古文智能信息处理技术国家地方联合工程研究中心有5篇论文被EMNLP 2025(The 2025 Conference on Empirical Methods in Natural Language Processing)录用。EMNLP是人工智能自然语言处理领域的顶级国际会议,每年举办一次,被列入国际计算机科学顶级学术会议列表(CSRankngs)和中国人工智能学会(CAAI)A类推荐国际学术会议。EMNLP 2025将于2025年11月5日至9日在中国苏州召开。

1. F²Bench: An Open-ended Fairness Evaluation Benchmark for LLMs with Factuality Considerations (主会长文)
作者:兰天¹,李江¹,王烨敏²,刘旭¹,苏向东¹*,高光来¹
完成单位:1.内蒙古大学;2.厦门大学
摘要:随着大型语言模型(LLMs)在各种自然语言处理任务中的广泛采用,对其公平性的担忧引起了越来越多的关注。尽管已经做出了许多努力来评估LLMs的公平性,但大多数现有的基准都依赖于封闭式设置,这与人类和LLMs之间的开放式交互大不相同。更重要的是,这种封闭式方法可能会引入位置偏差和“最低分数”效应,从而可能损害评估的可靠性。此外,现有的公平基准往往优先考虑人口平等,而忽视了历史、社会和文化现实所提供的事实维度,导致一种过于简单的观点,无法反映现实世界的复杂性。此外,大多数现有研究都集中在单一的人口统计学维度上,而交叉偏差分析往往被忽视。为了解决这些局限性,我们提出了F²Bench:一个具有事实性考虑的LLM开放式公平评估基准。F²Bench由2568个评估实例组成,涵盖10个人口统计组(包括交叉组)和三种开放式任务。通过将文本生成、推理和事实性考虑纳入公平性评估基准,我们的目标是更好地反映现实世界场景的复杂性。我们对不同系列和参数尺度的几个LLM进行了全面评估,发现它们都表现出不同程度的公平性问题。我们还将开放式评估方法与之前的封闭式方法进行了比较,强调了它们在检测偏差方面的差异。

2. Cross-domain Rumor Detection via Test-Time Adaptation and Large Language Models (主会长文)
作者:宫昱霞,胡树国,张怀文*
完成单位:内蒙古大学计算机学院(软件学院)
简介:社交媒体中谣言的快速传播严重威胁公共舆论安全,因此谣言检测已成为一项至关重要的研究任务。然而,现有的谣言检测方法大多仅在单一领域内进行建模,忽视了不同领域间存在的分布差异,导致跨领域谣言检测性能大幅下降。为解决这一问题,本文提出了一种新颖的跨领域谣言检测框架——T2ARD(Test-Time Adaptation for Rumor Detection)。该方法通过引入测试时自适应(Test-Time Adaptation)机制,并结合大语言模型(Large Language Models)生成的监督信号,有效提升了模型在跨领域场景下的鲁棒性与泛化能力。具体而言,T2ARD 设计了图适应模块,通过多层次自监督对比学习动态更新图结构与节点属性,从而获取不变性图表示。为缓解巨大分布差异对自监督信号的影响,T2ARD 利用大语言模型在目标图上的标注生成伪标签,并将其作为监督信号进行模型自适应。在四个广泛使用的跨领域数据集上的实验结果表明,T2ARD 显著优于现有方法,在跨域谣言检测任务中取得了最优性能。

3. Leveraging 3D Gaussian for Temporal Knowledge Graph Embedding (Findings长文)
作者:李江, 苏向东, 高光来
完成单位:内蒙古大学
摘要: 时间知识图谱嵌入(TKGE)旨在为知识图谱注入时间维度,从而更准确地建模现实世界中随时间变化的动态事实。本文提出了一种新的时间知识图谱嵌入方法3DG-TE,灵感来自3D Gaussian Splatting。在该方法中,实体、关系和时间戳都被建模为具有可学习结构化协方差的三维高斯分布。该方法通过优化实体、关系和时间戳的分布来提升整体知识图谱的表示能力。为了有效捕捉时间与关系的交互,我们设计了相应的结构化协方差,其中关系对应旋转变换,而时间戳控制自适应缩放。同时,我们提出了一种复合评分函数,整合了均值位置与结构化协方差,从而保持几何上的可解释性。在三个时间知识图谱基准数据集上的实验结果表明,3DG-TE 在时间链路预测任务中优于现有最先进的基线方法。

4. Multimodal Fine-grained Context Interaction Graph Modeling for Conversational Speech Synthesis (主会短文)
作者:贾真琦¹, 刘瑞¹*, Berrak Sisman², 李海洲3
完成单位:1.内蒙古大学、2.美国约翰霍普金斯大学、3.香港中文大学(深圳)
摘要:对话语音合成(Conversational Speech Synthesis, CSS)旨在通过理解多模态对话历史(Multimodal Dialogue History, MDH),生成具有自然韵律的语音。最新研究通过建模 MDH 与目标话语之间的句子级交互特征,能够准确预测目标话语的韵律。然而,MDH 在词级也包含了细粒度的语义与韵律知识,而现有方法往往忽视了对这种细粒度语义与韵律交互的建模。为了解决这一问题,我们提出 MFCIG-CSS,一种基于多模态细粒度上下文交互图的对话语音合成系统。该方法构建了两种专用的多模态细粒度对话交互图:语义交互图和韵律交互图。这两个交互图能够有效编码词级语义与韵律之间的交互关系,以及它们对 MDH 中后续话语的影响。随后,这些编码的交互特征被用于增强合成语音,使其具备自然的对话韵律。在 DailyTalk 数据集上的实验结果表明,MFCIG-CSS 在韵律表现力方面显著优于所有基线模型。相关代码与语音样例可在 https://github.com/Coder-jzq/MFCIG-CSS 获取。

5. Can Large Language Models Translate Unseen Languages in Underrepresented Scripts? (主会短文)
作者:蔺殿卿¹,阿如汗¹,侯宏旭¹*,孙硕²,陈伟¹,杨易辰¹,史国栋¹
完成单位:1.内蒙古大学,2.内蒙古工业大学
摘要: 大语言模型(LLMs)在机器翻译方面已经展现出令人印象深刻的性能,但在处理未见过的低资源语言时仍然面临挑战,尤其是那些使用不具有代表性文字书写的语言。为了探究LLMs是否能够借助语言学资源去翻译那些不具有代表性文字的语言,我们提出了 Lotus,一个旨在评估蒙古语(传统蒙古文书写)和彝语翻译的基准。我们的研究表明,虽然语言学资源能够在自动评价指标上提升翻译质量,但 LLMs 在有效处理这些语言方面依然存在局限。我们希望本工作能够为低资源NLP社区提供新的见解,并促进在不具有代表性文字的低资源语言机器翻译上的进展。

供稿:计算机学院(软件学院) 编辑:武涛 终审:阿茹娜