import java.net.URL;
import junit.framework.TestCase;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.beans.LinkBean;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.SimpleNodeIterator;
import org.htmlparser.visitors.NodeVisitor;
import org.htmlparser.visitors.ObjectFindingVisitor;
public class HtmlParserTest extends TestCase {
//得到www.google.cn的页面源代码
public void printHtmlString(String src) throws Exception {
Parser parser = new Parser(src);
//这样返回的list里面包含网页中的所有节点
NodeList parse = parser.parse(null);
System.out.println(parse.toHtml());
}
//使用TagNode的getAttribute("src")得到所有图片的路径
public void findAllImgTagSrc(String src) throws Exception {
Parser parser = new Parser(src);
NodeFilter filter = new NodeClassFilter(ImageTag.class);
NodeList list = parser.extractAllNodesThatMatch(filter);
System.out.println("IMG tags number :" + list.size());
SimpleNodeIterator iterator = list.elements();
while(iterator.hasMoreNodes()) {
//这个地方需要记住
Node node = iterator.nextNode();
TagNode tagNode = new TagNode();
//一旦得到了TagNode , 就可以得到其中的属性值
tagNode.setText(node.toHtml());
System.out.println(tagNode.getAttribute("src"));
}
}
//使用ImageTag的getURL得到所有的图片路径
public void easyFildImagePath(String src) throws Exception {
Parser parser = new Parser(src);
NodeList list = parser.extractAllNodesThatMatch(new NodeClassFilter(ImageTag.class));
for (int i = 0; i < list.size(); i++) {
Node node = list.elementAt(i);
ImageTag imgTag = new ImageTag();
imgTag.setText(node.toHtml());
System.out.println(imgTag.getAttribute("src"));
}
}
//使用visitor模式得到所有图片路径
public void visitorModeFindImgSrc(String src) throws Exception {
Parser parser = new Parser(src);
NodeVisitor visitor = new NodeVisitor() {
public void visitTag(Tag tag) {
if(tag.getClass() == ImageTag.class) {
System.out.println(tag.getAttribute("src"));
}
}
};
parser.visitAllNodesWith(visitor);
}
//Node可以传唤成它实际属于的类型
public void couldGetNodeWithItsType(String src) throws Exception {
Parser parser = new Parser(src);
NodeList nodes = parser.extractAllNodesThatMatch(new NodeClassFilter(ImageTag.class));
for (int i = 0; i < nodes.size(); i++) {
ImageTag tag = (ImageTag) nodes.elementAt(i);
System.out.println(tag.getImageURL());
}
}
//得到某个网页的纯文本
public void getPureTextOfSite(String src) {
StringBean textBean = new StringBean();
textBean.setURL(src);
String pureText = textBean.getStrings();
System.out.println(pureText);
}
//使用ObjectFindingVisitor得到所有的图片路径
public void testImageVisitor(String src) throws Exception {
Parser parser = new Parser(src);
ObjectFindingVisitor visitor = new ObjectFindingVisitor(ImageTag.class);
parser.visitAllNodesWith(visitor);
Node[] tags = visitor.getTags();
for (int i = 0; i < tags.length; i++) {
ImageTag tag = (ImageTag) tags[i];
System.out.println(tag.getImageURL());
}
}
//使用TagNameFilter得到所有图片
public void getImgSrcWithTagNameFilter(String src) throws Exception {
Parser parser = new Parser(src);
NodeFilter filter = new TagNameFilter("IMG");
NodeList list = parser.extractAllNodesThatMatch(filter);
for (int i = 0; i < list.size(); i++) {
ImageTag tag = (ImageTag) list.elementAt(i);
System.out.println(tag.getImageURL());
}
}
//从指定字符串解析html
public void parseHtmlWithString() throws Exception {
Parser parser = new Parser();
StringBuilder sb = new StringBuilder();
sb.append("<html>");
sb.append("<head>");
sb.append("</head>");
sb.append("<body>");
sb.append("<img src='1.jpg' />");
sb.append("<img src='2.jpg' />");
sb.append("<img src='3.jpg' />");
sb.append("</body>");
sb.append("</html>");
parser.setInputHTML(sb.toString());
NodeList list = parser.extractAllNodesThatMatch(new NodeClassFilter(ImageTag.class));
for (int i = 0; i < list.size(); i++) {
ImageTag imgTag = (ImageTag) list.elementAt(i);
System.out.println(imgTag.getImageURL());
}
}
//使用或者策略的Filter
public void OrFilterTest(String src) throws Exception {
Parser parser = new Parser(src);
OrFilter orFilter = new OrFilter(new NodeClassFilter(ImageTag.class) , new NodeClassFilter(LinkTag.class));
NodeList list = parser.extractAllNodesThatMatch(orFilter);
for (int i = 0; i < list.size(); i++) {
Node node = list.elementAt(i);
if(node instanceof ImageTag) {
ImageTag imgTag = (ImageTag)node;
System.out.println("image : " + imgTag.getImageURL());
}
if(node instanceof LinkTag) {
LinkTag linkTag = (LinkTag)node;
System.out.println("link : " + linkTag.getLink());
}
}
}
//读取表格内容
public void readTableContent() throws Exception {
Parser parser = new Parser();
StringBuilder sb = new StringBuilder();
sb.append("<html>");
sb.append("<body>");
sb.append("<table>");
sb.append("<tr>");
sb.append("<td>1</td>");
sb.append("<td>2</td>");
sb.append("<td>3</td>");
sb.append("</tr>");
sb.append("<tr>");
sb.append("<td>One</td>");
sb.append("<td>Two</td>");
sb.append("<td>Three</td>");
sb.append("</tr>");
sb.append("</table>");
sb.append("</body>");
sb.append("</html>");
parser.setInputHTML(sb.toString());
NodeFilter filter = new NodeClassFilter(TableTag.class);
NodeList list = parser.extractAllNodesThatMatch(filter);
for (int i = 0; i < list.size(); i++) {
TableTag table = (TableTag) list.elementAt(i);
for(int j = 0 ; j < table.getRowCount(); j++) {
TableRow row = table.getRow(j);
TableColumn[] columns = row.getColumns();
for (int k = 0; k < columns.length; k++) {
System.out.println(columns[k].toPlainTextString());
}
}
}
}
//LinkBean类使用
public void LinkBeanTest(String src) throws Exception {
LinkBean linkBean = new LinkBean();
linkBean.setURL(src);
URL[] links = linkBean.getLinks();
for (int i = 0; i < links.length; i++) {
System.out.println(links[i]);
}
}
}
分享到:
相关推荐
python学习资源
jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目
基于Andorid的音乐播放器项目设计(国外开源)实现源码,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。
python学习资源
python学习资源
python学习一些项目和资源
【毕业设计】java-springboot+vue家具销售平台实现源码(完整前后端+mysql+说明文档+LunW).zip
HTML+CSS+JavaScarip开发的前端网页源代码
python学习资源
【毕业设计】java-springboot-vue健身房信息管理系统源码(完整前后端+mysql+说明文档+LunW).zip
成绩管理系统C/Go。大学生期末小作业,指针实现,C语言版本(ANSI C)和Go语言版本
1_基于大数据的智能菜品个性化推荐与点餐系统的设计与实现.docx
【毕业设计】java-springboot-vue交流互动平台实现源码(完整前后端+mysql+说明文档+LunW).zip
内容概要:本文主要探讨了在高并发情况下如何设计并优化火车票秒杀系统,确保系统的高性能与稳定性。通过对比分析三种库存管理模式(下单减库存、支付减库存、预扣库存),强调了预扣库存结合本地缓存及远程Redis统一库存的优势,同时介绍了如何利用Nginx的加权轮询策略、MQ消息队列异步处理等方式降低系统压力,保障交易完整性和数据一致性,防止超卖现象。 适用人群:具有一定互联网应用开发经验的研发人员和技术管理人员。 使用场景及目标:适用于电商、票务等行业需要处理大量瞬时并发请求的业务场景。其目标在于通过合理的架构规划,实现在高峰期保持平台的稳定运行,保证用户体验的同时最大化销售额。 其他说明:文中提及的技术细节如Epoll I/O多路复用模型以及分布式系统中的容错措施等内容,对于深入理解大规模并发系统的构建有着重要指导意义。
基于 OpenCV 和 PyTorch 的深度车牌识别
【毕业设计-java】springboot-vue教学资料管理系统实现源码(完整前后端+mysql+说明文档+LunW).zip
此数据集包含有关出租车行程的详细信息,包括乘客人数、行程距离、付款类型、车费金额和行程时长。它可用于各种数据分析和机器学习应用程序,例如票价预测和乘车模式分析。
把代码放到Word中,通过开发工具——Visual Basic——插入模块,粘贴在里在,把在硅基流动中申请的API放到VBA代码中。在Word中,选择一个问题,运行这个DeepSeekV3的宏就可以实现在线问答
【毕业设计】java-springboot+vue机动车号牌管理系统实现源码(完整前后端+mysql+说明文档+LunW).zip
【毕业设计】java-springboot-vue交通管理在线服务系统的开发源码(完整前后端+mysql+说明文档+LunW).zip