科学研究

科研成果

当前位置: 首页 -> 科学研究 -> 科研成果 -> 正文

实验室团队王佳淼博士在《International Journal of Machine Learning and Cybernetics》发表研究论文

信息来源:李晓锋 发布日期:2024-12-06

近日,实验室团队王佳淼博士以开云在线注册,开云(中国)为第一单位在《International Journal of Machine Learning and Cybernetics》发表《Short‑text topic modeling with dual reinforcement from internal and external semantics》研究论文。论文鉴于互联网上流行使用短文本作为信息呈现的常见形式,从短文本中推断潜在主题已引起了学术界和工业界的日益关注。因此,为了解决短文本在词共现方面的数据稀疏问题,现有研究工作要么尝试从给定数据内部提取更多信息,要么利用外部学习的语义信息,如预训练词嵌入。而在本文中,我们提出了一种名为双增强主题模型(DRTM)的新模型,通过利用内部和外部语义信息来识别短文本中的主题。我们的模型改进了现有的仅考虑词之间一阶共现关系的内部方法,利用多阶关系,从而可以捕捉到在给定数据中未明确共同出现的词之间的相关性。针对现有外部方法仅利用词级分布式表示的局限性,我们进一步将文档表示纳入我们的模型,以促进主题建模。我们在多个公开可用的数据集上对我们的模型进行了评估。我们的实验结果表明,在主题连贯性和文档分类准确性方面,DRTM明显优于现有的内部和外部方法。

该工作得到国家自然科学基金委面上项目、四川省科技计划项目、四川省中央引导地方科技发展等项目的支持。