针对图书馆的大数据清洗系统 2019/6/7 徐继峰 周峻松 祁建明 陈墩金 广州明领基因科技有限公司
本发明公开了一种针对图书馆的大数据清洗系统,该系统包括:数据源采集层、脏数据发现层、脏数据清洗层以及数据清洗管理层;其中,所述数据源采集层位于系统底层,用于保证图书馆大数据存储系统安全、高效、经济和可控;所述脏数据发现层将从数据源采集层中发…[详细内容]
图书馆 大数据清洗系统
http://www.chinalibs.cn/ArticleInfo.aspx?id=457828
[目的/ 意义]旨在设计一种有效针对SCI 地址字段的数据清洗方案,将Word2Vec 词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI 地址字段中机构名称的不同写法,最终建立“机构名称映射表”,达到数据清…[详细内容]
数据清洗 Word2Vec 词向量模型 SCI 地址字段
http://www.chinalibs.cn/ArticleInfo.aspx?id=452100
本发明公开了一种用于数字图书馆的大数据清洗方法,涉及数据清洗技术领域。本发明包括如下步骤:定义数据清洗方案、对数据进行预处理、确定脏数据的类别及相应的清洗方案、缺失值填充、进行不一致数据修复、自动检测数据集中的属性错误、清理重复数据、干净数…[详细内容]
数字图书馆 大数据清洗方法
http://www.chinalibs.cn/ArticleInfo.aspx?id=447566
面向领域分析的文献数据清洗策略研究 2015/12/23 盛怡瑾 黄政 张学福 中国农业科学院农业信息研究所
为提高用于领域分析的文献数据质量,本文分析了文献数据的需求和特点,比较了常用的清洗方法和工具,并设计出一套清洗流程,用动物资源与育种领域的文献数据进行验证。结果表明,该流程科学有效,能够指导领域分析文献数据的清洗实践;同时在该流程指导下,可…[详细内容]
文献数据 领域分析 数据清洗
http://www.chinalibs.cn/ArticleInfo.aspx?id=393813
为了评价数据匹配算法中常用的四种字段匹配算法——Smith-Waterman算法、编辑距离(Edit Distance)、Q-gram算法和Jaro-Winkler算法的效果和表现,本文选取由水稻领域18个重点期刊集成得到的作者和机构数据设…[详细内容]
数据清洗 数据匹配 期刊 作者 机构
http://www.chinalibs.cn/ArticleInfo.aspx?id=387994
数据准备是文献计量的基础,决定了分析结果的客观性和准确性。基于中国水产科学研究院中文期刊论文的研究经验,从数据采集与数据清洗两方面论述文献计量分析中数据准备的原理和方法。采用文献检索和科研管理统计相结合的方式获取基础数据,总结“脏数据”的主…[详细内容]
文献计量 数据采集 数据清洗
http://www.chinalibs.cn/ArticleInfo.aspx?id=365148
作者共现网络在科学研究领域结构分析中具有非常重要的作用,本文构建了作者合作、作者共被引、作者文献耦合、作者关键词耦合及作者期刊耦合五种网络,利用层次聚类和网络关联分析比较不同共现网络揭示科学研究结构的能力。通过层次聚类发现:作者文献耦合网络…[详细内容]
作者共现网络 科学结构 子结构分析 关联分析 数据清洗
http://www.chinalibs.cn/ArticleInfo.aspx?id=370845
德温特专利信息清洗与标注模型研究 2013/10/24 翟东升 李倩 张杰 黄鲁成 赵京 北京工业大学经济与管理学院
专利数据集的质量和处理效率是进行专利分析和知识发现的基础,以构造高质量专利数据集的处理模型
为目的,以SQL Server BI 为研究平台,设计并实现了德温特专利数据库(DII)信息清洗标注模型。以文本形式的专利信息为数据源,在对各字段…[详细内容]
德温特专利数据库 专利信息 数据清洗 抽取策略
http://www.chinalibs.cn/ArticleInfo.aspx?id=345180
推荐
专利情报研究工作中专利数据源的选择研究 2012/11/18 王玉婷 赵亚娟 李慧美 中国科学院国家科学图书馆 中国科学院研究生院
对五大专利数据库的数据情况进行调研,从专利数据收录范围、加工方式、清洗程度以及引文数据、同族数据和法律状态数据方面进行对比,分析了它们各自在适用于专利情报工作时的优劣势。基于对比分析,总结归纳选择专利数据源时需要考虑的因素,包括数据的全面性…[详细内容]
专利情报研究 专利数据源 专利数据库 数据范围 数据加工 数据清洗
http://www.chinalibs.cn/ArticleInfo.aspx?id=278479
推荐
论数据清洗对信息检索质量的影响及清洗方法 2012/3/30 蒋勇青 杨奕虹 杨贺 中国科学技术信息研究所 北京万方软件有限公司
本文讨论数据清洗工作在提高数据检索质量方面的必要性及重要作用,并结合传统文献加工思想提出数据清洗工作中处理错误数据和重复数据的方法。[详细内容]
数据仓库 数据清洗 数据规范 检索系统 查全率 查准率
http://www.chinalibs.cn/ArticleInfo.aspx?id=258143
探讨了将推理机引入到SCI 地址字段数据清洗中的方法。首先通过指出目前SCI 地址字段数据清洗方法的不足阐述了进行SCI 地址字段数据清洗方法研究的必要性, 然后介绍了推理机的基本原理,并对应用于SCI 地址字段数据清洗中的推理机进行了设计…[详细内容]
推理机 SCI 地址字段 数据清洗 方法 设计
http://www.chinalibs.cn/ArticleInfo.aspx?id=268941
随着网络的日益普及和信息技术的进步,Web日志挖掘数据收集和原始数据处理工作变得越来越复杂,使得预处理技术也要进行相应的提高。本文通过对预处理中出现的复杂问题。进行了详细的分析,并列出了目前比较成熟的算法。[详细内容]
web日志挖掘 预处理 数据收集 数据清洗 用户/会话识别 最佳事务识别
http://www.chinalibs.cn/ArticleInfo.aspx?id=140835
数据仓库应用到文本信息越来越广泛,文章指出了数据清洗能提高数据的质量,阐述了数据清洗技术在文本挖掘应用中急需解决的问题。[详细内容]
数据清洗 文本挖掘 信息检索 数据仓库
http://www.chinalibs.cn/ArticleInfo.aspx?id=184590
定量专利分析工作离不开正确的样本选取和严谨的数据清洗。作为定量专利分析的前提和基础,样本选取和数据清洗影响着专利分析的结论,并决定着专利分析的效果。样本选取和数据清洗的基本步骤是:选择数据来源、限定数据范围、生成样本空间、数据规范、字段拆分…[详细内容]
情报理论与实践 专利 定量分析 样本 数据清洗
http://www.chinalibs.cn/ArticleInfo.aspx?id=169583
推荐
数字图书馆中的ETL应用研究综述 2007/9/24 黄永文 李广建 中国科学院国家科学图书馆 北京师范大学管理学院
总结数字图书馆领域中与ETL相关的研究,在此基础上提出数字图书馆中ETL的分类,最后结,合数字图书馆的应用需求和发展趋势,从ETL在数字图书馆资源建设、数字图书馆用户服务、实现数字图书馆与其他系统之间互操作3个方面,详细分析和研究数字图书馆…[详细内容]
数字图书馆 ETL应用 信息抽取 数据清洗
http://www.chinalibs.cn/ArticleInfo.aspx?id=263157