package xml;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.io.StringWriter;
import java.net.HttpURLConnection;
import java.net.URI;
import java.net.URISyntaxException;
import java.net.URL;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;
import java.util.UUID;
import java.util.Map.Entry;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.OutputKeys;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerException;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathExpression;
import javax.xml.xpath.XPathExpressionException;
import javax.xml.xpath.XPathFactory;
import org.apache.commons.io.IOUtils;
import org.apache.commons.lang.StringEscapeUtils;
import org.w3c.dom.Document;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;
import xml.util.EscapeChars;
public class TestXpathFromXml {
public static void main(String[] args) throws ParserConfigurationException,
SAXException, IOException, URISyntaxException, TransformerException {
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
factory.setNamespaceAware(true); // never forget this!
DocumentBuilder builder = factory.newDocumentBuilder();
//Document doc = builder.parse("books.xml");
Document doc = builder.parse("forum.txt");
//接下来创建 XPathFactory:
XPathFactory factory2 = XPathFactory.newInstance();
//然后使用这个工厂创建 XPath 对象:
XPath xpath = factory2.newXPath();
xpath.setNamespaceContext(new UniversalNamespaceResolver(doc));
//XPath 对象编译 XPath 表达式:
Object result;
Map<String, String> imageSrcMap = new HashMap<String, String>();
Map<String, String> abimageMap = new HashMap<String, String>();
try {
//get image
XPathExpression expr = xpath.compile("//*[@class=\"wenda_con\"]/descendant::img");
result = expr.evaluate(doc, XPathConstants.NODESET);
NodeList nodes = (NodeList) result;
URI base=new URI("http://www.XXXX.com/xx.html");//基本网页URI
Set<String> imagesSet = new HashSet<String>();
Set<String> abimagesSet = new HashSet<String>();
for (int i = 0; i < nodes.getLength(); i++) {
String imagesrc =nodes.item(i).getAttributes().getNamedItem("src").getNodeValue();
URI abs=base.resolve(imagesrc);//解析于上述网页的相对URL,得到绝对URI
URL absURL=abs.toURL();//转成URL
String fileName="image/"+UUID.randomUUID().toString().replace("-","")+".jpg";
imageSrcMap.put(imagesrc, fileName);
imagesSet.add(imagesrc);
abimageMap.put(imagesrc,absURL.toString());
}
//抓图
for(String str:imagesSet){
System.out.println("get image:"+str+"\n\t"+imageSrcMap.get(str));
fetchContentByJDKConnection(abimageMap.get(str),imageSrcMap.get(str));
}
//get content and replace //*[@id="list_con_bg"]/div/div[2]/div[1]/div
XPathExpression expr2 = xpath.compile("//*[@class=\"wenda_con\"]");
Object result1 = expr2.evaluate(doc, XPathConstants.NODESET);
NodeList nodes2 = (NodeList) result1;
TransformerFactory transFactory = TransformerFactory.newInstance();
Transformer transformer = transFactory.newTransformer();
StringWriter buffer = new StringWriter();
for (int i = 0; i < nodes2.getLength(); i++){
transformer.setOutputProperty(OutputKeys.OMIT_XML_DECLARATION, "yes");
transformer.transform(new DOMSource(nodes2.item(i)),new StreamResult(buffer));
}
String str = buffer.toString();
str=StringEscapeUtils.unescapeXml(str);
for(Entry<String, String> entry : imageSrcMap.entrySet()){
//System.out.println(entry.getKey()+":"+entry.getValue());
str=str.replaceAll(EscapeChars.forRegex(entry.getKey()),entry.getValue());
}
System.out.println(str);
} catch (XPathExpressionException e) {
e.printStackTrace();
}
}
private static void fetchContentByJDKConnection(String contentUrl,String fileName) throws IOException {
HttpURLConnection connection = (HttpURLConnection) new URL(contentUrl).openConnection();
// 设置Socket超时
connection.setReadTimeout(10 * 1000);
try {
connection.connect();
// 真正发出请求
InputStream input;
try {
input = connection.getInputStream();
} catch (FileNotFoundException e) {
//response.sendError(HttpServletResponse.SC_NOT_FOUND, contentUrl + " is not found.");
return;
}
// 设置Header
//response.setContentType(connection.getContentType());
if (connection.getContentLength() > 0) {
//response.setContentLength(connection.getContentLength());
}
File file = new File(fileName);
OutputStream output = new FileOutputStream(file);
// 输出内容
//OutputStream output = new OutputStream();//response.getOutputStream();
try {
// 基于byte数组读取InputStream并直接写入OutputStream, 数组默认大小为4k.
IOUtils.copy(input, output);
output.flush();
} finally {
// 保证InputStream的关闭.
IOUtils.closeQuietly(input);
}
} finally {
connection.disconnect();
}
}
}
分享到:
相关推荐
Applet钢琴模拟程序java源码 2个目标文件,提供基本的音乐编辑功能。编辑音乐软件的朋友,这款实例会对你有所帮助。 Calendar万年历 1个目标文件 EJB 模拟银行ATM流程及操作源代码 6个目标文件,EJB来模拟银行ATM...
这是一本以面试题为入口讲解 Java 核心内容的技术书籍,书中内容极力的向你证实代码是对数学逻辑的具体实现。当你仔细阅读书籍时,会发现Java中有大量的数学知识,包括:扰动函数、负载因子、拉链寻址、开放寻址、...
Java OCR(Optical Character Recognition,光学字符识别)技术是一种计算机视觉领域的应用,它能将图像中的文字转换成可编辑的文本格式。这项技术在各种场景下都有广泛应用,比如文档扫描、车牌识别、发票处理等。...
Applet钢琴模拟程序java源码 2个目标文件,提供基本的音乐编辑功能。编辑音乐软件的朋友,这款实例会对你有所帮助。 Calendar万年历 1个目标文件 EJB 模拟银行ATM流程及操作源代码 6个目标文件,EJB来模拟银行...
Applet钢琴模拟程序java源码 2个目标文件,提供基本的音乐编辑功能。编辑音乐软件的朋友,这款实例会对你有所帮助。 Calendar万年历 1个目标文件 EJB 模拟银行ATM流程及操作源代码 6个目标文件,EJB来模拟银行...
java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java电商源代码java...
java源码包实例源码JAVA开发源码50个合集: Ajax框架 ZK.rar Java图书馆管理系统源程序.rar Java图片倒影效果实例源码.rar Java图片翻折,将图像压扁.rar Java坦克大战网络对战版源代码.rar Java声音播放程序源代码....
JAVA开发人员最新版本7.0 api文档!本文档是 Java Platform Standard Edition 7 的 API !Java 1.7 API的中文帮助文档。 深圳电信培训中心 徐海蛟博士教学用api 7.0中文文档。支持全文检索,在线即时查询。 里面列...
java景点导航系统java景点导航系统java景点导航系统java景点导航系统java景点导航系统java景点导航系统java景点导航系统java景点导航系统java景点导航系统java景点导航系统java景点导航系统java景点导航系统java景点...
JoSQL(SQLforJavaObjects)为Java开发者提供运用SQL语句来操作Java对象集的能力.利用JoSQL可以像操作数据库中的数据一样对任何Java对象集进行查询,排序,分组。 搜索自动提示 Autotips AutoTips是为解决应用系统对于...
JoSQL(SQLforJavaObjects)为Java开发者提供运用SQL语句来操作Java对象集的能力.利用JoSQL可以像操作数据库中的数据一样对任何Java对象集进行查询,排序,分组。 搜索自动提示 Autotips AutoTips是为解决应用系统对于...
最新全套Java学习资料打包 最新全套Java学习资料打包 最新全套Java学习资料打包 最新全套Java学习资料打包 最新全套Java学习资料打包 最新全套Java学习资料打包 最新全套Java学习资料打包 最新全套Java...
日历表格面板 [ConfigLine.java] 控制条类 [RoundBox.java] 限定选择控件 [MonthMaker.java] 月份表算法类 [Pallet.java] 调色板,统一配色类 Java扫雷源码 Java生成自定义控件源代码 2个目标文件 Java实现HTTP连接...
Java算法集题大全Java算法集题大全Java算法集题大全Java算法集题大全Java算法集题大全Java算法集题大全Java算法集题大全Java算法集题大全Java算法集题大全Java算法集题大全Java算法集题大全Java算法集题大全Java算法...
JoSQL(SQLforJavaObjects)为Java开发者提供运用SQL语句来操作Java对象集的能力.利用JoSQL可以像操作数据库中的数据一样对任何Java对象集进行查询,排序,分组。 搜索自动提示 Autotips AutoTips是为解决应用系统对于...
JoSQL(SQLforJavaObjects)为Java开发者提供运用SQL语句来操作Java对象集的能力.利用JoSQL可以像操作数据库中的数据一样对任何Java对象集进行查询,排序,分组。 搜索自动提示 Autotips AutoTips是为解决应用系统对于...
Java2Pas是一个实用工具,主要用于将Java编程语言编写的源代码转换为Pascal语言的等效代码。这个工具对于那些需要在两种语言之间迁移代码或者理解不同编程语言语法的开发者来说非常有价值。Java和Pascal虽然都是面向...
HelloWorldApp.java 第一个用Java开发的应用程序。 firstApplet.java 第一个用Java开发的Applet小程序。 firstApplet.htm 用来装载Applet的网页文件 第2章 示例描述:本章介绍开发Java的基础语法知识。 ...
### Java 错误处理:java.lang.OutOfMemoryError: Java heap space 在Java应用程序开发过程中,经常遇到的一个问题就是内存溢出错误,特别是在处理大量数据或长时间运行的应用时。其中,“java.lang....