爬虫抓网页知识小结

1，用于抓取时间date的但是时间的格式多变 import java.util.regex.Matcher; import java.util.regex.Pattern; Pattern p = Pattern.compile("\\bon\\b"); Matcher m = p.matcher(str); if(m.find()){ str = m.group() } 2，去掉article中的属性是数字开头的 import java.util.regex.Matcher import java.util.regex.Pattern strReg = ...

2011-11-11 15:10
浏览 884
评论(0)
分类:互联网

登录微博的样例

import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.List; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.NameValuePair; import org.apache.commons.h ...

2011-11-11 14:58
浏览 1110
评论(0)
分类:Web前端

Map List Set转

Java C C++C#

1.list转set Java代码复制代码 1. Set set = new HashSet( new ArrayList()); Java代码复制代码 1. Set set = new HashSet( new ArrayList()); Set set = new HashSet(new ArrayList()); 2.set转list Java代码复制代码 1. List list = new ArrayList( new HashSet()); Java代码复制代码 1. List li ...

2011-05-20 10:12
浏览 1651
评论(0)
分类:编程语言

抓sohuBlog的时候碰到web zip形式

Web

Gzip压缩了，用压缩输入流GZIPInputStream gzin = new GZIPInputStream(fin); // 得到压缩输入流 public static void unGZipFile(File source, String target) throws Exception { FileInputStream fin = new FileInputStream(source); // 得以文件输入流 GZIPInputStream gzin = new GZIPInputStream(fin); // 得到压缩输入流 FileO ...

2011-05-13 13:35
浏览 761
评论(0)
分类:编程语言

字符串去除html标签

HTML

content=content.replaceAll("</?[^>]+>",""); //剔出了<html>的标签 content=content.replace(" ",""); content=content.replace(".",""); content=content.replace("\"&quo ...

2011-05-13 12:30
浏览 936
评论(0)
分类:编程语言

HTMLParser使用详解（3）- 通过Filter访问内容【转】

XHTML 正则表达式 HTML 编程

项目用到转来存着谢谢 HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。（一）Filter类顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。判断类Filter： TagNameFilter HasAttributeFilter HasChildFilter HasParentFilter HasSiblingFilter IsEqualFilter ...

2011-03-18 17:36
浏览 866
评论(0)
分类:编程语言

HTMLParser使用详解（2）- Node内容【转】

XHTML HTML 数据结构 .net

项目用到转来存着谢谢 HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。请看Node的定义： public interface Node extends Cloneable; Node中包含的方法有几类：对于树型结构进行遍历的函数，这些函数最容易 ...

2011-03-18 17:34
浏览 832
评论(0)
分类:编程语言

HTMLParser使用详解（1）- 初始化Parser[转]

.net 搜索引擎 HTML 工作

因为在项目中用到然后转来存着在研究搜索引擎的开发中，对于HTML网页的处理是核心的一个环节。网上有很多开源的代码，对于Java来说，HTMLParser是比较著名并且得到广泛应用的一个。HTMLParser的主页是http://htmlparser.sourceforge.net/ ...

2011-03-18 17:32
浏览 780
评论(0)
分类:编程语言

Htmlparser Filter 简要归纳(转)

正则表达式

1 . 逻辑关系：与或非 AndFilter() Creates a new instance of an AndFilter. AndFilter(NodeFilter[] predicates) Creates an AndFilter that accepts nodes acceptable to all given filters. AndFilter(NodeFilter left, NodeFilter right) Creates an AndFilter that accepts nodes acceptable to ...

2011-03-18 17:26
浏览 1458
评论(0)
分类:编程语言

HttpClient的 post 、get使用方法(转)

Servlet SOAP Blog

Http学习之使用HttpURLConnection发送post和get请求 2010-02-23 16:08 Http学习之使用HttpURLConnection发送post和get请求最常用的Http请求无非是get 和post，get请求可以获取静态页面，也可以把参数放在URL字串后面，传递给servlet，post与get的不同之处在于post的参数不是放在URL字串里面，而是放在http请求的正文内。在Java中可以使用HttpURLConnection发起这两种请求，了解此类，对于了解 soap，和编写servlet的自动测试代码都有很大的帮助。下面的代码简单描述了如何使用Ht ...

2011-03-18 13:37
浏览 1325
评论(0)
分类:编程语言

文件操作大全（转的）

F#IDEA J#Swing C

1.创建文件夹 //import java.io.*; File myFolderPath = new File(%%1); try { if (!myFolderPath.exists()) myFolderPath.mkdir(); } catch (IOException e) { System.err.println("新建目录操作出错"); } 2.创建文件 //import java.io.*; File myFilePath = new File(%%1); try { if (!myFilePath.exists()) myFilePath.createNe ...

2011-03-16 15:08
浏览 1069
评论(0)
分类:企业架构

Groovy探索关于“Load my Resource”模式的解读

Groovy Excel 网络应用编程软件测试

声明：转自软件信雅达很早就在Groovy语言的官方文档上看到了“Load my Resource”模式，却一直没有在意，可能是因为它不是GOF的经典模式中的一种。最近又不经意的看到了它，却鬼使神差的大概看了一遍，当略略有点明白它的意思时，就有点惊奇于它的功能了，当再一次阅读时，静下心来想一想，就真正感叹于它的思想了。总体来说，这个模式主要是针对一些资源的使用来的。这些资源包括文件操作、网络资源操作、针对Excel和pdf的一些API、数据库资源、ftp的读取等等，很多这样的资源。这些资源的使用过程中典型的特点是：我们的目的是为了读或者写数据到资源中，为了完成这个任务，我们必须要进行打开 ...

2011-02-24 13:53
浏览 649
评论(0)
分类:编程语言

eclipse自动提示设置

Eclipse C C++C#

从Window -> preferences -> Java -> Editor -> Content assist -> Auto-Activation下，我们可以在"."号后面加入我们需要自动提示的首字幕，比如"west"。在"."后面随便输入几个字符，比如"abij"，然后回到开发环境，File -> export -> general -> preferences -> 选一个地方保存你的首选项，比如C:\a.epf 用任何文本编辑器打开a.epf，查 ...

2011-02-24 11:09
浏览 822
评论(0)
分类:编程语言

Groovy Tip 10 Groovy语言对String的简化操作

Groovy D语言 F#

声明：转自软件信雅达在Groovy语言中，对String对象的操作就像操作List对象一样的方便。比如我们在Java语言中，对String对象的操作用得比较多的是substring方法。如下： String str = "abcdefg"; System.out.pr ...

2011-02-23 17:33
浏览 1227
评论(0)
分类:编程语言

Groovy探索之Gstring（转摘）

Groovy 正则表达式编程 Oracle SQL

声明：转自：软件信雅达 Groovy语言里有很多看起来不起眼的小玩意，但使用以后，我们却常常会惊异于它的巨大能量，Gstring就是其中之一。 Java的String对象是我们最最常用的对象，却也是诟病最多的对象。一句话来说，String使用起来非常不方便。而Gstring不但使用方便，而且更是Groovy语言动态性的基础。所谓Gstring，是指通过双引号引起来的、带有占位表达式的字符串，如：def str = “${name}’s dog is ${dog.name}”，其中由美元符号括起来的部分就是占位表达式，而str就是一个Gstring对象。这里试着列出其中的一些常用方法。 1 ...

2011-02-23 17:11
浏览 1110
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论