科技文献数据挖掘关键技术研究.pdf科技文献数据挖掘关键技术研究分类号密级: UDC 编号工学硕

文件名称: 科技文献数据挖掘关键技术研究.pdf

所属分类: 互联网

开发工具:

文件大小: 2mb

下载次数: 0

上传时间: 2019-07-08

提供者: dddd****

下载 (2mb)

不能下载？报告错误

详细说明：科技文献数据挖掘关键技术研究分类号密级: UDC 编号工学硕士学位论文科技文献数据挖掘关键技术研究硕士研究生:李梦阳指导教师:姚念民教授学位级别:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与技术学院论文提交日期:2015年3月3日论文答日期:2015年3月13日学位授予单位:哈尔滨工程人学 Classified Index U. D. C. A Dissertation for the degree of M. Eng Research on key technology of scientific literature data mining Candidate: Li Mengyang Supervisor: Prof. Yao Nianmin Academic Degree Applied for: Master of Engineering Specialty: Computer science and technology Date of Submission: Mar 3, 2015 Date of oral Examination Mar13.2015 University: Harbin Engineering University 科技文献数据挖掘关键技术研究摘要科技文献的薮量呈爆炸性増加,科硏知识的演变和进化更加迅捷,难以快速掌握如何从大量科技文献中快速分辨岀貝冇较髙阅读价值的文献成为硏究者普遍关注的问题被引频次是指在一段指定的时间段内科技文献被其他文献引用的次数,是评估科技文献影响力和质量的重要方法。但被引频次的统计易受到当前时间点的限制,很难获得未来时间段内的被引用情况,进而影响对科技文献在科技贡献力方面的评估。亟待提供种自动化地预测科技文献被引频次的方法,更快的识别有潜力的文献,促进科学研究和新知识的传播。本文研究科技文献被引频次预测算法。木文具伓研究内容如下:首先提岀对国际顶级数据挖掘比赛 KDDCUP中冠军算法进行优化改进,在划分训练和测试集合之前加入对文献主题词的分析,按照主题词对文献集合进行聚类,在每个类中进行回归预测,以减少因为主题时间点引用情况差异对预测准确性的影响。实验分析显示,改进的算法比原算法的预测准确度提高3.4%。其次针对目前已有算法的不足,本文提出一种新的基于时间序列相似度聚类的被引频次时间序列预测方法,运用时间序列回归建模和相似度聚类等数据挖掘技术,不但能够自动分析每个文献岀版后的被引用情况,获得每个月份的平均被引频次,还通过聚类挖掘岀文献的不同被引模式,进而根据待测文献的已有时间序列预测出未来的被引频次。通过实验分析发现,新的算法比原算法预测准确度提高6.5%。关键词:被引频次预测:时问序列;聚类分析;回归预测科技文献数据挖掘关键技术研究 Abstract With the rapid incrcasc of the number of scicntific literatures, the devclopment and evolution of scientific knowledge become more and more quickly. It is very difficult for researchers to grasp and understand the informations quickly. Therefore, how to discover the literatures which have higher value of reading from a large amount of scientific literatures has attracted a lot of attention from more and more researchers Citation count refers to the total number of citations which is obtained by a scientific literature in a specified period of time. Citation count is an important method to evaluate the influence and quality of scientific literatures. But it has many limitations to analysis the citation count, such as the current time point. Based on these circumstances, it is a challenging task to get the citation count in the future which will has a bad effection on the assessment of sccicntific litcraturcs'contribution. In order to identify the potcntial literatures quickly and promote the dissenmination of new knowledge, a method which can predict the citation count automatically and exactly is needed This paper focus on the algorithm which is used to prediction citation count of scientific literatures The research details of this paper are as follow: Firstly, we present a improved algortihem for the citation count prediction task in the international top competition on data mining which is named by KDDCUP. Compared with the algorithm of the team in the first place, we analysis the topic words of literatures in the dataset. Then we cluster the literatures according to their topic words, do regression forecast in each class in order to reduce the impact cause by the diffcrcnccs of cach topic on academic activity. Expcrimcntal analysis shows that the improved algorithm can improve the prediction accuracy compared with the original algorithm Based on our findings about the shortage of existing algorithms, this paper propose a new citation count time series predicting algorithm and evaluate it using the real citation data This algorithm is based on the similarity of citation pattern, using time-series regression modeling and similarity clustering data mining technology. On one hand, our algorithm can analyze the citation count of each literature in the dataset automatically and get the average 哈尔滨工程大学硕士学位论文 citation count in each month. On the other hand we also mine the different citation patterns by similarity clustering, so we can predict the citation count based on the existing citation count time series. Analytical and simulation results show that our prediction algorithm can achieve higher accuracy Keywords: citation count prediction; time series; cluster analysis; regression forecast 科技文献数据挖掘关键技术研究目录第1章绪论 .···:· 1研究背景….… 1.2科技文献被引频次预测国内外研究现状, 121国内研究现状 12.2国外研究现状 3论文的主要工作 1.3.1研究方案 223446 1.3.2预期结果 1.4论文的组织结构. 第2章 KDD Cup被引频次时间序列预测算法…… 看··4音,D垂看。音看看看·4·鲁D 21 KDD Cup竞赛仁务概述 21 KDD Cup赛背景概述 212 KDD Cup竞赛任务概述… 213 KDD Cup竞赛结果概述 22基于KNNC的被引频次时间序列预测算法 221时间序列预测研究概述. 222基于KNNC的被引频次时间序列预测算法 ,, 16 3基于KNNC的被引频次时间序列预测算法评估..20 2.3.1预测结果 20 232结果分析 20 24本章小结 20 第3章改进的被引频次预测算法 21 3.1改进的被引频次预测算法概述. 21 3.1.1改进的被引频次时间序列预测算法思想. 3.1.2改进的被引频次吋间序列预测算法流程. 2 3.,2改进算法中的主题聚类了算法.………………………………2 32.1聚类方法概述 .22 322基于划分的聚类方法 3 32.3基于层次的聚类方法 24 324基于密度的聚类方法 3.2.5基于网格的聚类方法哈尔滨工程大学硕士学位论文 32.6改进算法中的主题聚类子算法思想… 3.2.7改进算法中的主题聚类子算法流程.. 28 33本章小结 30 第4章基于时间序列聚类的被引频次预测算法…. 31 4.1时间序列相似度研究概述 31 4.1.1基于形状的相似度衡量方法 4.1.2基于特征的相似度衡量方法 32 4.1.3基于模型的相似度衡量方法, 4.1.4基于压缩的相似度衡量方法 4.1.5基于符号转换的相似度衡量方法 42时间序列聚类分析方法概述 ·········· 34 43基于时间序列聚类的被引频次预测算法 ,35 4.3.1基丁吋间序列聚类的被引频次预测算法思想、… 35 4.3.2基于吋间序列聚类的被引频次预测算法流程. 38 44本章小结. 垂。.··看·4. 看·· 39 第5章实验结果及分析. 看着垂 41 51实验方案 41 51.1实验设置 5.1.2实验数据集 513实验数据预处理 .4l 514实验测试方案 52实验测试 48 5,2.1改进后的被引频次预测算法测试 522基于时间序列聚类的被引频次预测算法测试 48 53实验结果分析 50 53.1改进后的被引频次预测算法结果分析 5.3.2基于时间序列聚类的被引频次预测算法结果分析. 54本章小结 51 结论 53 参考文献 55 攻读硕士学位期间发表的论文和取得的科研成果 b音音垂音·看看着垂垂音D着D音垂音音垂音致谢………..63 第1章绪论第1章绪论 1.1研究背景科技文献是科硏工作者研究成果的重要载体,乜是启发科硏领域新想法并推动科研进步的强大助力。研究人员在科学研究的过程中需要阅读和参考大量的科技文献。但随着信息科技的快速发展,科技文献的数量也飞速增加,另一方面科研知识的演变和进化也变得更加迅捷,给研究者带来了比较大的挑战。现有的文献筛选办法大多依靠人工阅读,这不仅要求阅读人员具有较高的专业知识水平,而且此方法在遇到大规模的论文集时,伴随着工作量的上升,筛选的正确率和效率会有明显的下降。文献的庞大数量和有限的工作时间及精力之间形成了日益紧迫的矛盾,科研工作者往往在筛选有阅读价值的文栿方面耗费大量的精力和时间。如何从大量科技文献中快速分辨出具有较高阅读价值的文献成为了近年来的研究热点。数据挖掘作为信息科学技术的重要新兴领域之一,致力于从大量的、不完全的、有噪声的、模糊的、随杋的薮据中,提取隐含在其中的新颖的潜在信息和知识。通过数据挖掘可以发现有价值的规则、规律、模式等有用知识凹。近年来薮据挖掘技术已绎受到文献分析工作者与研究者的重视和关注。海量的科技文献数据分析需要使用数据挖掘技杺,从而挖掘岀隐含在人量科技文献数据集中的冇用信息,进而更好地支持广大科技研究工作者对信息获取的需要叫。同时, 通过将数据挖掘技术应用到科技文献分析中,能够更好地促进科研事业的发展,辅助科研工作,具有一定的实践意义。但科研文献具有自身独特的结构特点出,文献不仅是半结构化的,而且其中包含的数据往往具备较强的专业性和复杂性。如何快速有效地挖掘岀此类文献数据源中的知识和规律,一直是数据挖掘研究工作者们努力解决的复杂课题科技文献区别于普通文献的一个很重要的特点是被引频次s。所谓被引频次是指在段指定的时间段内,某篇科技文献被其他文献所引用的总次数,是评估科技文献影响力和质量的重要方法,是判断和衡量文献阅读价值的主要参考因素。但被引频次的统计易受到当前时间点的限制,很难获得未来时间段内的被引用情况,进而影响对科技文献在科技贡献力方面的评估。因此,使用数据挖掘方对科技文献的被引频次进行自动化预测有着很强的实用价值和市场前景,能够更快速吏准确地识别有澘力有价值的文献,促进科学硏究和新知识

(系统自动生成,下载前可以参看下载内容)