java认证辅导:java中对this的理解Java认证考试:2012年JAVA考试:公共基础-百考试题网

java认证辅导:java中对this的理解Java认证考试

文章作者 100test 发表时间 2010:01:01 15:49:04
来源 100Test.Com百考试题网

　　Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。其实现原理是，根据预先定义的配置文件用httpclient获取页面的全部内容（关于httpclient的内容，本博有些文章已介绍），然后运用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容筛选操作，选取精确的数据。前两年比较火的垂直搜索（比如：酷讯等）也是采用类似的原理实现的。Web-Harvest应用，关键就是理解和定义配置文件，其他的就是考虑怎么处理数据的Java代码。当然在爬虫开始前，也可以把Java变量填充到配置文件中，实现动态的配置。
　　（友情提示：本博文章欢迎转载，但请注明出处：陈新汉，http://www.blogjava.net/hankchen）
　　现在以爬取天涯论坛的所有版面信息为例，介绍Web-Harvest的用法，特别是其配置文件。
　　天涯的版块地图页面时：http://www.tianya.cn/bbs/index.shtml
　　[天涯的部分版面列表]
　　我们的目标就是要抓取全部的版块信息，包括版块之间的父子关系。
　　先查看版块地图的页面源代码，寻求规律：
　　
　　
　　

社会民生

天涯杂谈

国际观察

天涯时空

传媒江湖

文学读书

莲蓬鬼话

煮酒论史

舞文弄墨

　　
　　
　　
　　……. //省略
　　通过页面源码分析，发现每个大板块都是在的包括之下，而大板块下面的小版块都是下面的形式包含的。
　　

xxx

，这些规律就是webharvest爬数据的规则。
　　下面先给出全部的配置：(tianya.xml)
　　
　　

　　
　　 ]]

相关文章

java认证辅导:String.split小结Java认证考试
 JAVA认证辅导:SPRING容器外访问SPRINGJava认证考试
 Java元数据总结：Java注释的使用和定义Java认证考试
 java认证辅导:冒泡排序与插入排序Java认证考试
 java认证辅导:java中对this的理解Java认证考试
 Java认证辅导:Java垃圾回收机制Java认证考试
 Java实现二叉树遍历算法Java认证考试
 JavaME多模搜索技术初探Java认证考试
 Java中四个关键字用法的简要介绍Java认证考试
 澳大利亚华人论坛
 考好网
 日本华人论坛
 华人移民留学论坛
 英国华人论坛