文本聚类分析效果评价及文本表示研究

简单信息

论文专业: 计算机软件与理论
论文主题:文本聚类 聚类分析 聚类评价 文本表示 信息检索
论文分类: TP391.3  TP317.2
论文形态:共 82 页 约 66,174 个字符 约 5.822 M内容
其他说明:论文作者及其毕业院校、导师姓名、撰写年份等隐私信息已被隐藏
论文阅读: 下载全文
<script type=text/javascript> </script> <script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type=text/javascript> </script> <script> window.google_render_ad(); </script>

内容摘要

随着计算机技术的不断发展与应用,数字化的文本数据数量不断增长,互联网的发展更加剧了数字文本的膨胀。在这种背景下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化推送都是一系列极具发展前景的应用。在与文本聚类分析相关的研究中,可用的算法种类众多且难以选择与比较,因此对文本的聚类结果进行有效评价非常关键。目前,评价方法比较混乱,缺乏得到普遍认同的评价方法及与之相关的深入研究。这导致在实际应用中选择算法、选择参数时缺乏一个科学的依据。在研究与实际应用中,评价文本聚类分析效果有哪些指标,各有什么特性,不同的文本聚类分析算法效果哪个好哪个不好,哪个更好,怎样才能更好,这些都是需要研究人员进行回答的问题。

这些问题归结到底都是一个文本聚类效果的评价问题。本文围绕文本聚类效果评价、提高文本聚类分析效果这个目的,主要完成了文本聚类分析评价以及文本表示模型研究两个方面的工作,论文的具体工作内容包括:

(1)影响文本聚类效果的因素分析。详细分析了可能影响文本聚类分析效果的三个因素:文本表示模型、距离度量方法和聚类分析算法

(2)详细介绍了两类评价标准下对应的具体评价指标,清晰界定了基于人工判定的指标和基于目标函数的指标两大类别,分清各自的应用场景,着重介绍基于人工判定的系列指标以及其特性,推荐使用熵和基于类的F值两个指标;

(3)实现了包括文本解析、文本聚类分析、文本聚类效果评价分析三个模块的实用软件包,软件包实现了多种文本解析方法、聚类分析算法及评价指标,三个模块可各自独立使用,可扩展性强:

(4)应用软件包进行实验分析。主要分析HAC算法中大类现象的出现位置、原因和启示,对HAC与K-Means算法进行效能分析、对多种影响因素的影响力进行比较分析,对主要聚类算法效果进行横向比较。主要结论包括:a)文本HAC算法的聚类效果是一个先变好后变坏的过程,算法先按照文本语义逐渐凝聚簇直至临界点,临界点后出现大类倾向,质量丌始变坏。文本表示与文本语义之间的不完全对应造成了这种现象,解决方案建议在临界点之前停止簇合并避免质量变差或者淘汰干扰簇等;b)英文文本处理中的Lower处理以及不进行Stem处理可以适当提高最终聚类效果的质量;c)VSM模型中的ltc特征权重度量方法相对于nnn、Lnu、OKAPI中的BM25等方法更优:d)在本文的实验中通过适当的阈值设置,NN算法可以产生高质餐的小簇,从整体效果上而言K-Means基本优于HAC、K-Means Bisecting和NN聚类算法

(5)对文本表示进行探索性的研究。文本聚类归根结底是语义相同或者相近的同质

文本聚成一个团,文本表示是决定文本能否按照语义正确聚到一起最綦本的决定因素。本文针对VSM文本表示模型的特性与缺陷进行分析,引入序关系提出了文本的图表示模型并予以实验检,尝试打破特征项的独立性假设寻找语义单元。 本文的主要贡献有三点:(1)确立了文本聚类评价指标体系,结合聚类评价指标体系对影响文本聚类效果的因素进行深入研究,实现了一个有益的可扩展软件包:(2)应用聚类效果评价技术分析了文本聚类分析中的大类现象,完成系列比较实验,得到有益的结论与算法改进意见;(3)在文本表示方面做出了前瞻性的探索研究。

全文目录

文摘
英文文摘
论文说明:图目录及表目录
声明及论文版权使用授权书
第一章 引言
第二章 文本聚类效果影响因素
第三章 文本聚类效果评价指标体系与应用特性
第四章 文本聚类算法包实现与主要算法的实验分析
第五章 文本表示模型的探讨
第六章 结束语
参考文献
致谢
作者简历

相关论文

  1. 基于本体论的智能检索研究,TP391.3
  2. 本体论在信息检索中的应用研究,TP391.3
  3. 基于内容的音乐检索——哼唱检索理论与技术研究,TP391.3 TP393.09
  4. XML结构索引技术及查询优化研究,TP391.3
  5. 中文全文检索技术研究,TP391.3
  6. 数据流自适应查询处理技术,TP391.3 TP311.131
  7. 基于内容的3D模型检索技术研究,TP391.3 TP311.131
  8. 基于互联网的知识检索和管理的研究,TP391.3
  9. 依存语言模型在信息检索中的应用研究,TP391.3
  10. 藏文字处理系统的研究与实现,TP317.2 TP391.1
  11. 文本信息处理中汉语句法分析方法研究,TP317.2
  12. 数据流多重持续查询优化技术研究及其在入侵检测中的应用,TP317.2 TP393.08
  13. 基于.NET的办公自动化系统,TP317.2 TP317.1 TP315
  14. 服务资源不确定性问题及其引发的异常处理方法研究,TP317.2
  15. 基于文本分类与用户兴趣的个性化搜索与推荐的研究与实现,TP317.2 TP391.1
  16. 面向大规模信息检索的中文分词技术研究,TP317.2 TP391.3
  17. 基于文本的中文本体知识获取的研究,TP317.2
  18. 一个概念聚合和文档资源分类的计算模型,TP317.2 TP391.12
  19. 基于数据挖掘的股票价格预测研究,TP311.132.2 F201 F830.91
  20. 基于位置的服务系统——移动个人导航系统的研究与设计,TN929.5 TP311.13
  21. 基于本体的教学知识库研究,TP311.13
  22. VoIP移动终端中实时数据安全策略研究与实现,TN915.08 TN929.5
  23. 基于计算网格的任务调度算法研究,TP301.6
  24. 基于知识本体的多Agent协商模型研究,TP311.13 TP18
  25. 基于N—Tiers C/S模型的住房公积金系统的设计与实现,F299.233 TP317
  26. 基于优化状态转换信任度的增强型学习算法及其在机器人控制中的应用,TP181 TP242
  27. 基于RBF神经网络的人形目标识别,TP391.41 TP183

所属分类

工业技术 - 自动化技术、计算机技术 - 计算技术、计算机技术 - 计算机的应用 - 信息处理(信息加工)
工业技术 - 自动化技术、计算机技术 - 计算技术、计算机技术 - 计算机软件 - 程序包(应用软件)

http://www.niftyadmin.cn/n/1810280.html

相关文章

我的世界服务器物品展示框,我的世界物品展示框的妙用 趣味物品介绍

我的世界总是种田挖矿、打怪升级、制作工具、炼药附魔……日复一日的我的世界生活是不是少了些什么?今天就来为大家介绍我的世界中的趣味装饰物品——物品展示框&#xff0c;像素世界也能充满生活情趣&#xff01;物品展示框&#xff1a;物品展示框可以用来悬挂展示方块或物品…

Beaglebone Black教程项目1闪烁板载LED

Beaglebone Black教程项目1闪烁板载LED 项目1闪烁板载LED 当设置完你的Beaglebone Black的时候&#xff0c;可能早就非常期待你的第一个项目了。下面就来满足大家的愿望&#xff0c;当然&#xff0c;这个项目可不是惊天动地的大项目&#xff0c;但万事总是有个开始的。这个项目…

python any(1)_Python any()函数的使用方法

描述&#xff1a;如果iterable的任何元素为true&#xff0c;则返回true。如果iterable为空&#xff0c;则返回false。相当于&#xff1a;def any(iterable):for element in iterable:if element:return Truereturn False意思是&#xff1a;判断一个tuple或者list是否全部为空、…

非结构化视频搜索技术

2006-10-10 22:46■ 李蓬涛 编者按&#xff1a;视频搜索技术针对音视频这类非结构化数据&#xff0c;使用了语音识别、自动抽帧和内容自动关联等技术&#xff0c;真正做到了从内容上对视频进行搜索。2006年互联网行业的新热点是各类垂直搜索&#xff0c;随着行业细分&#xff0…

服务器execl修改记录,EXCEL2010 追踪修改记录详解

最近有很多人问在excel中是不是也可以像在word中一样显示修改记录&#xff0c;关于这个问题&#xff0c;今天的文章会做详细介绍。excel中的修改记录不想word 中的如此一目了然。它很像是对单元格加的一个注释。开启追踪记录需要通过 review ------track changes.如下图。选择t…

【剑指offer】约瑟夫环问题

转载请注明出处&#xff1a;http://blog.csdn.net/ns_code/article/details/27957407题目描写叙述&#xff1a;每年六一儿童节,JOBDU都会准备一些小礼物去看望孤儿院的小朋友,今年亦是如此。HF作为JOBDU的资深元老,自然也准备了一些小游戏。当中,有个游戏是这种:首先,让小朋友们…

软件测试学习笔记:主路径测试

(a) (b)当将MAXPRIMES设置2到5直接时。t2(n5)会出现越界错误而t1(n3)不会 (c)当n0或1时&#xff0c;程序不会经过while循环。 (d) 节点覆盖 TR {1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16} 边覆盖 TR {(1,2),(2,3),(3,4),(4,5),(5,6),(6,7),(7,5),(6,8),(8,9),(5,9), (9,10),(9,…

金融海啸下,全球IT业裁员日志

涉及企业 25 家裁员总数 140482 人 金融海啸下&#xff0c;全球IT业裁员日志&#xff08;共/将裁员约 140482 人&#xff09; 宣布日期公司名字裁员人数所在领域详细情况2008年11月03日飞思卡尔2400人半导体公司飞思卡尔拟全球裁员10&#xff05;约2400人应对金融风2008年11月0…