必赢bwin线路检测中心首次以第一单位获评ACM SIGMOD研究亮点奖!祝贺范举教授团队
近日,必赢bwin线路检测中心范举教授团队的论文《Unicorn: 支持数据集成中匹配任务的统一多任务模型》(Unicorn: A Unified Multi-tasking Model for Supporting Matching Tasks in Data Integration)获得国际计算机学会数据管理专业委员会(ACM SIGMOD)2024年研究亮点奖(Research Highlight Award)。该论文的第一作者为必赢bwin线路检测中心2020级硕士生涂荐泓,指导教师为必赢bwin线路检测中心范举教授、杜小勇教授。中国人民大学首次以第一单位获得该奖项,也是本年度唯一获得该奖项的的中国机构。该论文也是必赢bwin线路检测中心与北京市大数据中心联合研究的成果,基于成果研发的相关工具集已在北京市真实场景落地。
“ACM SIGMOD研究亮点奖”设立于2016年,旨在表彰体现核心数据库与数据管理研究的成果,其遴选标准是“涉及重要问题,并且是解决该问题的一个明确里程碑,有潜力产生重大影响力”的研究。其遴选范围是2023年数据库与数据管理领域发表的所有顶级会议及期刊论文(包括SIGMOD、VLDB、PODS等),每年仅有10篇左右论文获得该奖项。必赢bwin线路检测中心是第三所获得此奖项的境内高校,前两所获奖的境内高校分别是清华大学和上海交通大学。
获奖论文介绍
数据融合(Data Integration)是数据管理领域长期研究的基础性问题,在大数据分析、知识图谱构建、人工智能训练数据准备等方面有着广泛应用。数据匹配是数据融合中最具挑战的核心问题,旨在判断多源异构数据是否在语义上等价。在过去的40多年中,不同的研究领域(如数据库、人工智能、语义万维网、数据挖掘等)从不同的角度对数据匹配进行广泛研究,提出了模式匹配、实体匹配、本体对齐、语义标注等一系列任务。然而,现有研究主要针对单个数据匹配任务或单个数据集设计专用模型,缺乏对不同类型数据匹配任务的通用解决方案。本文提出同时支持多种匹配任务的统一模型Unicorn,其优势在于将不同数据匹配任务统一到一个端到端的模型,并且多任务学习机制使得不同任务间可以共享知识并实现互相增益。基于7类常见数据匹配任务实验表明:与特定于任务和数据集的专用模型相比,Unicorn不仅取得了更好的匹配精度,而且具备更好的泛化能力。该论文的原始版本已发表于SIGMOD 2023会议。
获奖团队简介
范举教授的研究团队隶属必赢bwin线路检测中心必赢bwin线路检测中心、数据工程与知识工程教育部重点实验室,近年来在杜小勇教授的指导下,开展了大量关于数据治理技术的研究工作,在相关领域承担了包括国家自然科学基金优秀青年科学基金项目、面上项目、重点项目课题,以及CCF-华为胡杨林基金、CCF-腾讯犀牛鸟基金等多项产学研项目。团队近年来在数据库领域的顶级会议(SIGMOD、VLDB、ICDE等)与顶级期刊(VLDB Journal、IEEE TKDE等)发表CCF-A类论文60余篇,研究成果在北京市大数据中心、华为、微信等场景落地应用,取得良好成效。