import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class BaiduParse {
public static void main(String[] args) throws Exception {
String str = "http://tieba.baidu.com/p/1303669256";
String endPage = getEndPage(str);
String url = null;
for (int i = 1; !endPage.equals(url); i++) {
url = str + "?pn=" + i;
System.out
.println("================================================"
+ url
+ "================================================");
String content = getContent(url);
writeStringToFile(fileName(url) + ".html", content, "gb2312");
}
}
/**
* 保存到本地的文件名称
*
* @param name
* 文件名称
* @return
*/
public static String fileName(String name) {
String abc = name.split("/")[name.split("/").length - 1];
String aaa = abc.split("\\?")[0]
+ abc.split("\\?")[abc.split("\\?").length - 1];
return aaa;
}
/**
* 找到最后一页的URL
*
* @param url
* @return
* @throws ParserException
*/
public static String getEndPage(String url) throws ParserException {
String str = null;
Parser parser = new Parser();
parser.setURL(url);
parser.setEncoding("gb2312");
// 设置过滤器,只获取li标签,并且只有class属性为l_pager pager_theme_2的html节点(包括子节点)
NodeFilter beginNodeFilter = new AndFilter(new TagNameFilter("li"),
new HasAttributeFilter("class", "l_pager pager_theme_2"));
NodeList nodeList = parser.extractAllNodesThatMatch(beginNodeFilter);
if (nodeList != null && nodeList.size() > 0) {
Node nameNode = nodeList.elementAt(nodeList.size() - 1);
//得到最后一个链接
LinkTag n = (LinkTag) nameNode.getLastChild();
str = n.extractLink();
}
parser.reset();
return str;
}
/**
* 获取某个URL中的内容,这里只留下了br标签
*
* @param url
* @return
* @throws ParserException
*/
public static String getContent(String url) throws ParserException {
Parser parser = new Parser();
parser.setURL(url);
parser.setEncoding("gb2312");
// 设置过滤器,只获取p标签,并且只有class属性为d_post_content的html节点(包括子节点)
NodeFilter beginNodeFilter = new AndFilter(new TagNameFilter("p"),
new HasAttributeFilter("class", "d_post_content"));
// 执行解析得到所有节点集合
NodeList nodeList = parser.extractAllNodesThatMatch(beginNodeFilter);
StringBuffer sb = new StringBuffer();
for (int i = 0; i < nodeList.size(); i++) {
Node nameNode = nodeList.elementAt(i);
NodeList cNodeList = nameNode.getChildren();
// 自定义解析器把包含a标签与包含img标签的节点去掉
NodeFilter nodeFilter = new NodeFilter() {
private static final long serialVersionUID = 1L;
public boolean accept(Node arg0) {
// 如果包含a或者包含img跳过
if (arg0.toHtml().startsWith("<a")
|| arg0.toHtml().startsWith("<img")) {
return false;
}
return true;
}
};
//对子节点进行a标签img标签过滤
cNodeList = cNodeList.extractAllNodesThatMatch(nodeFilter);
for (int j = 0; j < cNodeList.size(); j++) {
Node cnameNode = cNodeList.elementAt(j);
sb.append(cnameNode.toHtml());
}
}
parser.reset();
return sb.toString();
}
/**
* 把字符串写入文件中
*
* @param fileName
* 文件名称
* @param content
* 文件内容
* @param enc
* 字符集编码
* @return
* @throws IOException
*/
public static boolean writeStringToFile(String fileName, String content,
String enc) throws IOException {
File file = new File(fileName);
try {
if (file.isFile()) {
file.deleteOnExit();
file = new File(file.getAbsolutePath());
}
OutputStreamWriter os = null;
if (enc == null || enc.length() == 0) {
os = new OutputStreamWriter(new FileOutputStream(file));
} else {
os = new OutputStreamWriter(new FileOutputStream(fileName), enc);
}
os.write(content);
os.close();
} catch (Exception e) {
e.printStackTrace();
return false;
}
return true;
}
}
分享到:
相关推荐
使用HtmlParser 提取百度贴吧中的图片
HTMLParser是一个用于解析HTML文档的库,尤其在处理非结构化或不标准的HTML时非常有用。这个库可能被用于从网页中提取数据,比如在爬虫项目中,或者进行自动化测试时解析页面内容。本篇文章将深入探讨HTMLParser的...
HTMLParser是一款专为Java开发人员设计的开源库,用于解析HTML文档。这个工具包小巧而强大,能够处理不规则的HTML结构,对于处理网络爬虫、网页数据提取或需要解析HTML内容的应用程序来说,是非常实用的。在提供的...
htmlparser解析html,获得需要的字段
本篇文章将深入探讨如何使用HTMLParser库来解析网页,查找文章内容,并将其下载保存。HTMLParser是Python标准库中的一个模块,专门用于解析HTML和XML文档。 首先,我们需要了解HTMLParser的基本用法。HTMLParser是...
如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.
HTMLParser是一个纯Java编写的库,专门用于解析和处理HTML文档。它不依赖任何其他Java库,使得它成为一个轻量级且高效的解决方案。HTMLParser设计的目的是为了方便地解析、提取或修改HTML内容,适用于网页数据抓取和...
HTMLParser是Python中用于解析HTML文档的一个库,它允许开发者以事件驱动的方式处理HTML文档的结构。这个库特别适用于从不规范的HTML源码中提取数据,因为网页内容的格式可能会因各种原因而不尽完美。在本例中,我们...
HTMLParser是一个Java库,专为解析HTML而设计。它提供了对HTML文档的解析能力,使得开发者可以方便地处理网页内容,提取有用的信息或者进行数据抓取。这个工具在IT行业中,尤其是在Web开发和数据处理领域,有着广泛...
标题已经哼明白了,这里下载下来作为library引入即可。 这里是jar下载:http://sourceforge.net/projects/htmlparser/ (ps:不过导入jar前,要重新编译jar,要不在Android工程了不可用)
2. **创建解析器**:通过实例化解析器类,如`HtmlParser`,并设置相应的解析模式和配置。 3. **解析HTML**:调用解析器的`parse`方法,传入HTML源码或输入流,开始解析过程。 4. **处理解析事件**:注册事件处理器,...
在事件驱动模式下,HTMLParser会监听并触发一系列的解析事件,如遇到开始标签、结束标签、文本内容等。开发者可以通过注册事件处理器来响应这些事件,从而提取所需的数据。这种方式对于处理大量HTML文档且只需要关注...
然后,你可以按照HTMLParser的API文档编写代码,创建解析器实例,设置事件处理器,以及进行所需的解析操作。 总的来说,HTMLParser提供了一个强大且灵活的工具,可以帮助Java开发者在处理HTML时避免许多常见的头痛...
因为一个项目需要解析一个网站上的新闻,所以找到了htmlParser这个开源的项目,删除了一些不需要的包,使其可以在android上用。 有两个工程,myhtml是库,要把它包含到dwParser(android工程)工程中,就可以直接...
HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community...
按DOM模型解析html文件的工具包 已下是源码列表: META-INF/MANIFEST.MF META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class ...
使用HTMLParser,我们可以解析网页内容,提取所需信息,如文章标题、链接、图片等。以下是一些核心概念和步骤: 1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_...
在C#中,HTMLParser可能采用了递归下降解析器或基于事件的解析器模式。递归下降解析器通常使用函数或方法的递归来匹配HTML标记,而基于事件的解析器则在遇到特定的HTML元素时触发事件,使得处理更加灵活。 标签`c# ...
基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于...
4. **事件驱动的解析**:HTMLParser.net提供了一个事件模型,当解析到特定元素或属性时,会触发事件。开发者可以订阅这些事件来实现自定义逻辑。 5. **灵活性**:除了基本的HTML解析,HTMLParser.net还支持XML和SVG...