下载地址:
下载地址1(本站为飞网专业下载站,域名:down.cfei.net)
资源简介:
Nutch全文搜索学习笔记Nutch的工作流程:Crawdb、linkdb是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。segments是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。index是lucene的索引目录,是indexes目录里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。
飞网下载站,免费下载共享资料,内容涉及教育资源、专业资料、IT资源、娱乐生活、经济管理、办公文书、游戏资料等。