2024年07月26日:Efficient Large-scale Biomedical Ontology Matching with Anchor-based Biomedical Ontology Partitioning and Compact Geometric Semantic Genetic Programming

  • 主页 /
  • 通知公告 /
  • 通知公告

2024年07月26日:Efficient Large-scale Biomedical Ontology Matching with Anchor-based Biomedical Ontology Partitioning and Compact Geometric Semantic Genetic Programming

【报告内容】

汇报人:姜照航

汇报单位:太原理工大学

主题:《Efficient large-scale biomedical ontology matching with anchor-based biomedical ontology partitioning and compact geometric semantic genetic programming》

1、Introduction

2、Method

3、Experiment

4、Conclusion

【报告总结】

1.待解决的问题描述

匹配大规模生物医学本体的主要挑战是巨大的搜索空间,例如包含超过44,000个术语的基因本体(GO)和包含超过300,000个概念的SNOMED-CT 。这种复杂性可能会压倒传统的OM方法。本体划分通过将问题分解为可管理的子本体匹配任务来有效地解决这个问题。该策略通过关注特定的领域区域来提高匹配的效率和精度。然而,生物医学本体中的复杂关系使得在子本体中有效地保存这些关系变得复杂。尽管分割方法取得了进展,但为生物医学领域找到一种高效、高质量的方法仍然具有挑战性。第二个挑战源于复杂的术语和实体关系,这阻碍了跨本体的概念识别和链接。因此,选择和整合适当的相似性特征(SF)对于准确测量生物医学概念相似性至关重要。然而,由于高维空间、非线性关系和无关的SF,构建有效的SF变得复杂。近年来,进化算法(EA)如遗传编程(GP)已经被公认为在本体匹配(OM)中有效地处理SF。特别是,几何语义遗传编程(GSGP)提高了搜索效率和有效性,但在大规模生物医学本体匹配(BOM)任务中面临挑战。由于亲代个体之间的语义差异,GSGP与嘈杂的适应度景观作斗争,这阻碍了收敛,并且缺乏调整步长的机制,影响了探索和开发之间的平衡。为了优化BOM的GSGP,需要新的策略来缓解这些问题并增强收敛性。虽然基于GP的OM方法有效地解决了大规模BOM问题,但其适应度函数设计限制了性能。首先,像f-测度这样的传统度量依赖于专家比对,通常是不可用的。其次,f-测度可能会导致有偏差的改进,因为对齐可能会优先考虑一个指标而非另一个指标,从而模糊了真正的性能平衡。这会阻碍精确和可靠的匹配技术的发展。最后,现有的度量不能同时评估多个比对,降低了生物医学子本体的并发匹配的效率。为大规模BOM任务量身定制新的度量标准是至关重要的。

2.相关创新方案

1)为了提高BOM处理的效率,提出了一种新的基于锚点的生物医学本体划分方法。第一种是锚确定方法,用于识别高度相似的生物医学概念以指导划分过程。第二种是基于锚点的子本体构建,综合利用两种生物医学实体关系迭代构建相似子本体对,减少匹配过程的搜索空间;

2)为了提高BOM结果的质量,提出了一种新的紧凑GSGP(CGSGP)来构建高层次的SF。该算法采用两棵概率树(PT)自适应地保持算法的搜索方向,一个概率向量(PV)细化步长。紧凑的进化机制可以显著降低经典GSGP的计算复杂度,提高SF选择和组合的效率;

3)为了实现BOM过程的自动化,设计了两个新的统计指标来评估个体。第一个度量近似地评估个体的质量,而不需要标准比对,而第二个度量利用多个匹配任务的优势改善率(Dominance Improvement Ratio,简称DIR)来避免解决方案的偏差改善。

3.实验总结

本文的目标是开发一种用于大规模生物医学本体自动匹配的高效BOM方法。该算法由基于锚点的生物医学本体划分方法、CGSGP和适应度函数组成。与最先进的BOM技术相比,性能评估强调了CGSGP在各种大规模BOM任务之间产生高质量对齐的能力。本研究对BOM领域做出了三个主要贡献。首先,基于锚点的生物医学本体划分方法的引入强调了分离相似子本体的重要意义。我们的研究结果表明,这种方法不仅简化了BOM流程,而且还加强了对齐精度,使其与传统的基于ea的匹配策略区别开来。其次,CGSGP中嵌入了紧凑的遗传操作,特别是强调突变而忽略交叉,在不影响解质量的前提下提高了搜索过程的效率。从算法的性能指标可以看出,这种方法显著提高了CGSGP的效率。最后,新的适应度函数集成了近似的f测度和DIR,证明了我们对质量评估和搜索方向指导。它在估计解决方案质量方面的精确性和在控制搜索轨迹方面的娴熟性确保了CGSGP在大规模BOM领域中保持领先地位。

4.未来工作

未来的工作将通过探索更多的优化技术和细化本体划分来提高CGSGP算法的效率和有效性。我们计划集成额外的知识来源,包括特定领域的资源和外部数据集,以提高匹配过程的语义深度。此外,我们的目标是开发子本体对齐的高级聚合策略,利用局部和全局信息来获得更精确和全面的结果。

报告时间:2024072619:30

腾讯会议:371 3868 6615

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)