下载地址:
下载地址1(本站为飞网专业下载站,域名:down.cfei.net)
资源简介:
/** * @author Jack.Wang * */import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util.HashMap;import java.util.HashSet;import java.util.LinkedHashSet;import java.util.regex.Matcher;import java.util.regex.Pattern;// 搜索Web爬行者public class SearchCrawler implements Runnable { /* * disallowListCache缓存robot不允许搜索的URL。 Robot协议在Web站点的根目录下设置一个robots.txt文件, * 规定站点上的哪些页面是限制搜索的。 * 搜索程序应该在搜索过程中跳过这些区域,下面是robots.txt的一个例子: * # robots.txt
飞网下载站,免费下载共享资料,内容涉及教育资源、专业资料、IT资源、娱乐生活、经济管理、办公文书、游戏资料等。