`
gstarwd
  • 浏览: 1549090 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表
httpclient(校内网),大家帮忙看看我的 httpclient怎么发不到对方站内信呢?博客倒是能发,但是就是站内这里出问题~ Java code package com.lihan.dao; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.util.logging.Level; import java.util.logging.Logger; imp ...
zz: 目的: http://www.iteye.com/topic/638206 使用HTTPClient4.0.1登录到人人网,并从特定的网页抓取数 据。 总结&注意 事项: HttpClient(DefaultHttpClient)代表了一个会话,在同一个会话中,HttpClient对cookie自动进行管理(当然, 也可以在程序中进行控制)。 在同一个会话中,当使用post或是get发起一个新的请求时,一般需要对调用前一个会话的abort()方法,否则会抛出异常。 有些网站登录成功后会重定向(302, 303),比如 ...
一、 二者的出身      作为世界最著名的两大CASE工具,Rational Rose和PowerDesigner的名声可谓如雷贯耳。Rose是当时全球最大的CASE工具提供商Rational的拳头产品,UML建模语言就是 由Rational公司的三位巨头Booch、Rumbaugh和Jacobson发明的,后来Rational被IBM收购,所以Rose 可谓出身名门,嫁入豪族。而PowerDesigner也有一段好玩的历史,作者王晓昀是一位中国人,在法国SDP软件 公司工作时,由于苦觅一个好用的CASE工具未果,干脆自由开搞,整了个AMC*Designor出 来,居然一炮打 ...
HtmlCleaner API Create cleaner instance: Constructor or method Purpose HtmlCleaner() Create cleaner with default tag information provider. HtmlCleaner(ITagInfoPr ...
Common usage Tipically the following steps are taken: // create an instance of HtmlCleaner HtmlCleaner cleaner = new HtmlCleaner(); // take default cleaner properties CleanerProperties props = cleaner.getProperties(); // customize cleaner's behaviour with property setters props.setXX ...
Common usage Tipically the following steps are taken: // create an instance of HtmlCleaner HtmlCleaner cleaner = new HtmlCleaner( ) ;   // take default cleaner properties CleanerProperties props = cleaner.getProperties ( ) ;   // customize cleaner's behaviour with prope ...
原文出处:http://blog.chenlb.com/2008/11/htmlcleaner-use-demo.html <!-- google_ad_section_start --> 编程的时候,有时数据源从html来。那就要对html分析提取数据。好在java社区里有好有相关库来解析html,经使用比较:个人 觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的 xpath特好用。也可能我对htmlparser不熟悉。 htmlcleaner 下载地址:htmlcleaner2_1.jar 源码下载:htmlclean ...
包含关系:比如在自动售货机里面,向柜里增加货品,那么必然包括打开柜门和关上柜门,  这就是包含关系,也就是说做基事件的时候,必然会做它所包含的事 件。 扩展关系:是说做基事件之后,我可能做扩展事件,也可能不做。         用例图 主 要用来图示化系统的主事件流程,它主要用来描述客户的需 求,即用户希望系统具备的完成一定功能的动作,通俗地理解用例就是软件的功能模块,所以是设计系统分析阶段的起点,设计人员根据客户的需求来创建和解释用 例图,用来描述软件应具备哪些功能模块以及这些模块之间的调用关系,用例图包含了用例和参与者,用例之间用关联来连接以求把系统的整个结构和 ...
UML 实践——用例图、顺序图、状态图、类图、包图、协作图 面向对象的问题的处理的关键是建模问题。建模可以把在复杂世界的许多重要的细节给抽象出。许多建模工 具封装了UML(也就是Unified Modeling Language™),这篇 ...
http://htmlparser.com.cn/
// 获取一个网页上所有的链接和图片链接   public static void extracLinks(String url) {     try {       Parser parser = new Parser(url);       parser.setEncoding("gb2312"); //过滤 <frame> 标签的 filter,用来提取 frame 标签里的 src 属性所、表示的链接        NodeFilter frameFilter = new NodeFilter() {         publi ...
spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标. 第一个spider程序由MIT的Matthew K Gray 操刀该程序的目的是为了统计互联网中主机的数目 spider定义(关于Spider的定义,有广义和狭义两种). 狭义:利用标准 ...
  zz:http://www.iteye.com/news/1731 构建于lucene之上的可用的Java开源Spider少之又 少,spindle长期没有更新且功能不够完善,故而自己参考其源 代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正, 有任何意见及建议均可Email联系我 (kaninebruno@hotmail.com)    以下代码基于lucene-2.3.1,htmlparser-1.6,je-analysis-1.5.3,以及自己修改过的cpdetector- 1.0.5; ...
Cobra 简介: Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。声明的新特征有: 实现了W3C HTML DOM Level 2接口。 能够解析某些浏览器所识别的 "street HTML"。 能够在headless模式中被使用。 当文档被解析时,对于Dom修改提供incremental notifications。 提供增量地修改Dom的方式,比如,设置一个页面元素的 "innerHTML&qu ...
我这次要介绍的是如何抽取正文,这部分是最为核心的.因为如果不能很好的提取原有文章的内容和样式,那么搜索出来的东西 就会惨不忍睹.根本就没有使用价值   在做正文抽取模块之前我曾经参考过很多抽取模式,有配置模版的,有搞视觉匹配的.有搞关键字识别的.我挨个做了分析 首先配置摸版是不太现实的,因为我在搜索技术资讯的时候,根本不知道会搜索到哪个网站,也根本没精力去配置摸版.所以这个行不通      基于视觉效果的分析,这个难度比较大,而且只适合于规范的网站,而现在很多网站根本不规范,广告链接漫天飞.人家都把最好的 位置留给广告了.而且我一直怀疑这个模式的可行性,它只是 ...
Global site tag (gtag.js) - Google Analytics