资源大小: 196KB
发布时间: 2012-04-05
文件格式: pdf
下载次数: 0
分享到:

下载地址:

下载地址1
(本站为飞网专业下载站,域名:down.cfei.net)

资源简介:

本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标, 分析了搜索引擎工作原理, 讨论了现有的去重算法。给出了一种基于特征码的网页去重算法, 并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率, 达到了对算法的预期。


飞网下载站,免费下载共享资料,内容涉及教育资源、专业资料、IT资源、娱乐生活、经济管理、办公文书、游戏资料等。