`
JasonWo
  • 浏览: 1046 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

网页提取内容

阅读更多
package com.viewer;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import javax.xml.transform.TransformerException;

import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.NamedNodeMap;

import com.sun.org.apache.xpath.internal.XPathAPI;
import com.viewer.common.CommonFileOperator;

public class Test {
public void caijiNekoFirst(String url) throws Exception {
DOMParser parser = new DOMParser();
try {
// 设置网页的默认编码
parser.setProperty("http://cyberneko.org/html/properties/default-encoding","gb2312");
// 关闭命名空间为false
parser.setFeature("http://xml.org/sax/features/namespaces", false);
// 设置html路径
parser.parse(url);
} catch (Exception e) {
e.printStackTrace();
}
Document doc = parser.getDocument();
String titlexpath = "//*[@id=\"Img_a\"]";
org.w3c.dom.NodeList titles = null;
try {
titles = XPathAPI.selectNodeList(doc, titlexpath);
org.w3c.dom.Node node = null;
System.out.println(titles.getLength());
for (int i = 0; i < titles.getLength(); i++) {
node = titles.item(i);
/* 获取属性值 */
NamedNodeMap namedNodeMap = node.getAttributes();
org.w3c.dom.Node n = namedNodeMap.getNamedItem("src");
System.out.println(n.getNodeValue());
}
} catch (TransformerException e) {
e.printStackTrace();
}
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
// Test t = new Test();
// try {
// t.caijiNekoFirst("http://localhost:9090/PaperViewer/node_2.htm");
// } catch (Exception e) {
// // TODO Auto-generated catch block
// e.printStackTrace();
// }
String s = "C:\\Documents and Settings\\Administrator\\桌面\\新建文件夹\\node_2.htm";
try {
String content = CommonFileOperator.readFile(s);
// System.out.println(content);
Pattern p = Pattern.compile("<img useMap=#PagePicMap1.*?id=\"Img_a\" >");
Matcher m = p.matcher(content);
while (m.find()) {
String tmp = m.group();
System.out.println(tmp);
}
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}

}
分享到:
评论

相关推荐

    网页数据抓取工具,ajax异步数据获取,模拟访问网页提取内容

    模拟访问网页提取内容是数据抓取的关键步骤。使用C#,可以借助像HttpWebRequest或HttpClient类来创建网络请求,模仿浏览器行为,包括设置HTTP头信息(如User-Agent),处理Cookies,甚至执行登录操作以访问受保护的...

    FlashHunter(网页Flash游戏提取工具)

    值得注意的是,由于Flash的安全性和隐私问题,直接从网页提取内容可能涉及到侵犯网站的版权或服务条款。因此,在使用FlashHunter时,用户应确保遵循合法和道德的准则,尊重内容创作者的权益,只提取那些允许或者鼓励...

    c# .net 网络爬虫 网页提取

    手写网络爬虫 能抓取网页 广度优先 可设置深度 vs2008测试 能进行网页提取 内容提取 标题提取 meta提取 server数据入库 欢迎参考 有好的建议请发送邮件blackjunes@sina.com

    网页内容提取v2.0

    这个程序设计简洁,用户友好,只需要通过鼠标将待处理的网页文件拖放到程序窗口,然后按下回车键,即可开始执行内容提取过程。值得注意的是,该工具不仅能够处理单个文件,还支持文件夹级别的批量转换,极大地提高了...

    cyy网页提取助手v3.0官方安装版

    网页提取工具简介: CYY网页提取助手是一款好用的网页数据提取工具,现在来说已经用处不多了,输入指定的页面就可以提取相应的文字、图片、动图、css等内容,并可以完整地把网页文件保存到本地,有需要的不要错过。...

    C#从指定的网站提取网页内容

    本程序使用多线程从特定网页中提取textarea块中的内容。 具体从http://www.veryhuo.com提取中间演示textarea内的html文本,从(网页特效代码)-&gt;(详细分类)-&gt;html网页中textarea内容,程序内使用了1.多线程 2.正则...

    网页视频提取器

    网页视频提取器是一款高效实用的工具,主要用于从网页中便捷地获取并下载视频内容。它类似于百度工具栏,提供了一种简单易用的方式,让用户能够快速定位并保存自己喜欢的网络视频,无需繁琐的操作或者安装特定的...

    深度网页提取器,可以简单提取一些网页的代码

    每当我们上网看到精彩的网页时,都有想把它保存下来的冲动,可是直接使用网页另保存选项保存往往很繁琐且效果不是很好,今天小编给大家介绍一款专业提取网页内容的实用小工具——CYY网页提取助手。使用CYY网页提取...

    HTMLParser提取网页内容

    HTMLParser 是一个用于解析HTML文档的Java库,它允许开发者以结构化的方式处理网页内容,例如提取特定元素、过滤不需要的标签等。在Web抓取或数据挖掘领域,HTMLParser是一个常用的工具,可以帮助我们从HTML源码中...

    js网页提取_js网页提取VB_

    在网页提取领域,JS扮演着重要角色,因为许多现代网页不仅用HTML和CSS构建,还利用JavaScript动态加载和更新内容。在VB(Visual Basic)环境中,可以通过自动化工具或者接口与JavaScript交互,进行网页数据的抓取。 ...

    基于文本对象模型的自动化网页内容提取方法.pdf

    基于文本对象模型的自动化网页内容提取方法是一种通过使用文档对象模型(DOM)技术,对原始网页的DOM结构进行优化和分析,进而实现自动化提取网页中有用内容的技术。该方法在信息检索、文本分析和网络资源数据处理...

    c# 网页内容提取

    在本案例中,我们关注的是使用C#进行网页内容提取的技术。这涉及到两个主要技术:WebBrowser控件和HTML解析。 WebBrowser控件是.NET Framework提供的一种组件,允许开发者在C#应用程序中内嵌一个浏览器引擎,模拟...

    网页文件提取

    1. **数据备份**:定期提取网页图片和CSS,可以用于备份个人收藏的网页,防止因网站更新或消失导致内容丢失。 2. **离线浏览**:提取网页资源后,可以构建一个本地版本的网页,让用户在没有网络连接的情况下也能浏览...

    万能网页视频提取工具

    总的来说,这款“万能网页视频提取工具”是一个方便用户下载和保存网络视频的实用工具,适用于那些希望离线观看视频或者收集特定内容的用户。它能够处理多种视频格式,特别是对于仍然使用Flash的网站,有着很好的...

    网页文本提取器

    可将提取信息生成文本文件、HTM网页文件、MDB数据库文件。 提供多种查找、获取信息的方式: 提取文件中全部email邮件地址 提取文件中全部互联网址(无参数) 提取文件中全部互联网址(带参数) 提取HTML文件中...

    开源网页内容提取

    开源网页内容提取是IT领域中一个重要的主题,特别是在网络爬虫和信息挖掘方面。C#作为.NET框架的主要编程语言,提供了丰富的库和工具来实现这一功能。以下将详细阐述C#进行网页内容提取的关键知识点: 1. **HTML...

    delphi7+网页采集之网址提取,内容提取,图片提取,网页源码

    本篇文章将详细探讨如何使用Delphi 7这一经典的编程环境进行网页采集,包括网址提取、内容提取以及图片提取,同时也会涉及到网页源码的解析。 首先,让我们了解Delphi 7。Delphi 7是Embarcadero Technologies开发的...

    C# winfrom 自动登录网页 提取网页内容

    总结来说,C# WinForm自动登录网页并提取内容涉及到以下几个关键技术点: 1. 使用`HttpClient`进行HTTP POST请求以模拟登录。 2. 管理cookies以维持会话。 3. 解析HTML内容,可以使用HtmlAgilityPack等库。 4. 将...

    linux C/C++实现的通过url访问网页提取网页文字内容

    总的来说,使用C/C++在Linux下实现通过URL访问网页提取文字内容是一个涉及网络编程、HTTP协议理解和HTML解析的综合性任务。通过学习和实践,你可以掌握这些技能,并构建自己的网络爬虫或Web客户端工具。

    网页链接提取精灵

    网页提取通常分为两种:一种是基于规则的,即通过正则表达式或其他预定义的模式匹配来寻找链接;另一种是基于解析器的,使用HTML解析库,如Python的BeautifulSoup或Java的Jsoup,来解析DOM树结构,找到链接。"网页...

Global site tag (gtag.js) - Google Analytics