详细信息
文献类型:期刊文献
中文题名:数据ETL过程中的实体识别方法
英文题名:Entity Identification Method for Data ETL Process
作者:彭银桥[1];甘元驹[1];彭凌西[1];邓锐[1]
机构:[1]湛江海洋大学信息学院,广东湛江524088
年份:2005
卷号:28
期号:7
起止页码:44
中文期刊名:现代电子技术
外文期刊名:Modern Electronics Technique
收录:CSTPCD
语种:中文
中文关键词:数据ETL;相似重复记录;实体识别算法;实体识别过程框架
外文关键词:data ETL; duplicate records; entity identification algorithms; entity identification process frame
中文摘要:实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现 语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%、 96.5%,能够满足工程应用的要求。
外文摘要:Entity identification is to conform the corresponding practical entity based on its various description information. The biggest challenge for data integration is to match the similar records. General entity identification algorithms are analyzed. The entity identification process frame for carrying out the data filtering function of data ETL (data extraction, transformation and loading) is brought forward. Average returning rate and precision tested with entity identification algorithms are respectively 86.3%, 96.5% in developed UCIS(UniCom Client Information System) that carried out data integration based on semantics, which can meet engineering application.
参考文献:
正在载入数据...