资源大小: 1.08MB
发布时间: 2011-03-06
文件格式: none
下载次数: 5
分享到:

下载地址:

下载地址1
(本站为飞网专业下载站,域名:down.cfei.net)

资源简介:

所属领域:数据挖掘、机器学习、文本分类数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易受到大类的影响而忽略小类。大多数分类算法都是面向均匀分布数据提出的,对于数据偏斜的情况,仅利用传统的分类方法并不能取得理想的效果。另一方面,分类器的质量很大程度上取决于训练文本集的质量。一般说来,训练文本集类别越准确、内容越全面,得到的分类器质量就越高。但是在实际应用中,这种全面准确的训练文本集是很难得到的,尤其是在数据规模很大的情况下,更是如此。在真实的文本分类应用中,训练数据一般都不可避免的含有噪声,这些噪声样本将对最终的分类结果产生重要影响。我们结合LDA(Latent DirichletAllocation)概率主题模型,针对上述两种情况,提出了基于概率主题模型的数据偏斜分类方法和噪声处理方法。利用LDA概率主题模型潜在的全局语义信息,人工生成新的训练文本,能够取得比传统方法更好的效果。


飞网下载站,免费下载共享资料,内容涉及教育资源、专业资料、IT资源、娱乐生活、经济管理、办公文书、游戏资料等。