一个简单的java网络爬虫(spider)Java认证考试
文章作者 100test 发表时间 2010:01:01 15:50:42
来源 100Test.Com百考试题网
一个简单的java网络爬虫,由于时间原因,没有进一步解释.
需要的htmlparser.jar包到官方网上去下.
---------------Spider.java---------------------------
import java.io.BufferedReader. import java.io.InputStreamReader. import java.net.URL. import java.net.URLConnection. import java.util.ArrayList. import java.util.HashMap. import java.util.Iterator. import java.util.List. import org.htmlparser.RemarkNode. import org.htmlparser.StringNode. import org.htmlparser.Node. import org.htmlparser.tags.*. import org.htmlparser.Parser. import org.htmlparser.filters.StringFilter. import org.htmlparser.util.NodeIterator. import org.htmlparser.util.NodeList. import org.htmlparser.util.ParserException. import java.util.Queue. import java.util.LinkedList.
public class Spider implements Runnable {
boolean search_key_words = false.
int count = 0.
int limitsite = 10.
int countsite = 1.
String keyword = "中国".//搜索关键字
Parser parser = new Parser().
// List linklist = new ArrayList().
String startsite = "".//搜索的其实站点
SearchResultBean srb.//保存搜索结果
List resultlist = new ArrayList().//搜索到关键字链接列表
List searchedsite = new ArrayList().//已经被搜索站点列表
Queue linklist = new LinkedList().//需解析的链接列表
HashMap