- 浏览: 1549090 次
- 性别:
- 来自: 杭州
最新评论
-
lt26w:
理解成门面模式应该比较容易明白吧
FacadePattern-Java代码实例讲解 -
lt26w:
看下面的例子比较明白.
FacadePattern-Java代码实例讲解 -
javaloverkehui:
这也叫文档,别逗我行吗,也就自己看看。
HtmlCleaner API -
SE_XiaoFeng:
至少也应该写个注释吧。
HtmlCleaner API -
jfzshandong:
...
org.springframework.web.filter.CharacterEncodingFilter 配置
文章列表
httpclient(校内网),大家帮忙看看我的
httpclient怎么发不到对方站内信呢?博客倒是能发,但是就是站内这里出问题~
Java code
package com.lihan.dao; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.util.logging.Level; import java.util.logging.Logger; imp ...
zz:
目的:
http://www.iteye.com/topic/638206
使用HTTPClient4.0.1登录到人人网,并从特定的网页抓取数
据。
总结&注意
事项:
HttpClient(DefaultHttpClient)代表了一个会话,在同一个会话中,HttpClient对cookie自动进行管理(当然,
也可以在程序中进行控制)。
在同一个会话中,当使用post或是get发起一个新的请求时,一般需要对调用前一个会话的abort()方法,否则会抛出异常。
有些网站登录成功后会重定向(302,
303),比如 ...
一、 二者的出身
作为世界最著名的两大CASE工具,Rational
Rose和PowerDesigner的名声可谓如雷贯耳。Rose是当时全球最大的CASE工具提供商Rational的拳头产品,UML建模语言就是
由Rational公司的三位巨头Booch、Rumbaugh和Jacobson发明的,后来Rational被IBM收购,所以Rose
可谓出身名门,嫁入豪族。而PowerDesigner也有一段好玩的历史,作者王晓昀是一位中国人,在法国SDP软件
公司工作时,由于苦觅一个好用的CASE工具未果,干脆自由开搞,整了个AMC*Designor出
来,居然一炮打 ...
HtmlCleaner API
Create cleaner instance:
Constructor or method
Purpose
HtmlCleaner()
Create cleaner with default tag information provider.
HtmlCleaner(ITagInfoPr ...
Common usage
Tipically the following steps are taken:
// create an instance of HtmlCleaner
HtmlCleaner cleaner = new HtmlCleaner();
// take default cleaner properties
CleanerProperties props = cleaner.getProperties();
// customize cleaner's behaviour with property setters
props.setXX ...
Common usage
Tipically the following steps are taken:
// create an instance of HtmlCleaner
HtmlCleaner cleaner = new
HtmlCleaner(
)
;
// take default cleaner properties
CleanerProperties props = cleaner.getProperties
(
)
;
// customize cleaner's behaviour with prope ...
原文出处:http://blog.chenlb.com/2008/11/htmlcleaner-use-demo.html
<!-- google_ad_section_start -->
编程的时候,有时数据源从html来。那就要对html分析提取数据。好在java社区里有好有相关库来解析html,经使用比较:个人
觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的
xpath特好用。也可能我对htmlparser不熟悉。
htmlcleaner 下载地址:htmlcleaner2_1.jar
源码下载:htmlclean ...
包含关系:比如在自动售货机里面,向柜里增加货品,那么必然包括打开柜门和关上柜门, 这就是包含关系,也就是说做基事件的时候,必然会做它所包含的事
件。
扩展关系:是说做基事件之后,我可能做扩展事件,也可能不做。
用例图
主
要用来图示化系统的主事件流程,它主要用来描述客户的需
求,即用户希望系统具备的完成一定功能的动作,通俗地理解用例就是软件的功能模块,所以是设计系统分析阶段的起点,设计人员根据客户的需求来创建和解释用
例图,用来描述软件应具备哪些功能模块以及这些模块之间的调用关系,用例图包含了用例和参与者,用例之间用关联来连接以求把系统的整个结构和 ...
UML
实践——用例图、顺序图、状态图、类图、包图、协作图
面向对象的问题的处理的关键是建模问题。建模可以把在复杂世界的许多重要的细节给抽象出。许多建模工
具封装了UML(也就是Unified Modeling Language™),这篇 ...
http://htmlparser.com.cn/
// 获取一个网页上所有的链接和图片链接
public
static void extracLinks(String url) {
try {
Parser
parser = new Parser(url);
parser.setEncoding("gb2312");
//过滤
<frame> 标签的 filter,用来提取 frame 标签里的 src 属性所、表示的链接
NodeFilter frameFilter = new NodeFilter() {
publi ...
spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.
第一个spider程序由MIT的Matthew K Gray
操刀该程序的目的是为了统计互联网中主机的数目
spider定义(关于Spider的定义,有广义和狭义两种).
狭义:利用标准 ...
zz:http://www.iteye.com/news/1731
构建于lucene之上的可用的Java开源Spider少之又
少,spindle长期没有更新且功能不够完善,故而自己参考其源
代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,
有任何意见及建议均可Email联系我 (kaninebruno@hotmail.com)
以下代码基于lucene-2.3.1,htmlparser-1.6,je-analysis-1.5.3,以及自己修改过的cpdetector-
1.0.5; ...
Cobra 简介:
Cobra是一个HTML工具包。它包含一个纯Java HTML DOM
分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。声明的新特征有:
实现了W3C HTML DOM Level 2接口。
能够解析某些浏览器所识别的 "street HTML"。
能够在headless模式中被使用。
当文档被解析时,对于Dom修改提供incremental notifications。
提供增量地修改Dom的方式,比如,设置一个页面元素的 "innerHTML&qu ...
我这次要介绍的是如何抽取正文,这部分是最为核心的.因为如果不能很好的提取原有文章的内容和样式,那么搜索出来的东西
就会惨不忍睹.根本就没有使用价值
在做正文抽取模块之前我曾经参考过很多抽取模式,有配置模版的,有搞视觉匹配的.有搞关键字识别的.我挨个做了分析
首先配置摸版是不太现实的,因为我在搜索技术资讯的时候,根本不知道会搜索到哪个网站,也根本没精力去配置摸版.所以这个行不通
基于视觉效果的分析,这个难度比较大,而且只适合于规范的网站,而现在很多网站根本不规范,广告链接漫天飞.人家都把最好的
位置留给广告了.而且我一直怀疑这个模式的可行性,它只是 ...