抓取网页
public String getPageWeather(String weatherCode) {
String WEATHER_ROOT = sysConf.getValue("WEATHER_JSON");
String weatherUrl = WEATHER_ROOT + weatherCode + ".html";
logger.info("网页抓取开始,地址 【" + weatherUrl + " 】");
String sresult = "";
/*try {
HttpResult result = HttpUtil.getInstance().get(weatherUrl, "utf-8");
if (result.getOK()) {
logger.info("抓取成功");
sresult = result.getContent();
}
} catch (Exception e) {
e.printStackTrace();
return "";
}*/
sresult = this.getPageContent(weatherUrl, "", 50000000);
System.out.println(sresult);
return sresult;
}
public String getPageContent(String strUrl, String strPostRequest, int maxLength) {
// 读取结果网页
StringBuffer buffer = new StringBuffer();
try {
URL newUrl = new URL(strUrl);
HttpURLConnection hConnect = (HttpURLConnection) newUrl.openConnection();
hConnect.setReadTimeout(Integer.parseInt(sysConf.getValue("TIME_OUT")));
// POST方式的额外数据
if (strPostRequest.length() > 0) {
hConnect.setDoOutput(true);
OutputStreamWriter out = new OutputStreamWriter(hConnect.getOutputStream());
out.write(strPostRequest);
out.flush();
out.close();
}
// 读取内容
BufferedReader rd = new BufferedReader(new InputStreamReader(hConnect.getInputStream(), "utf-8"));
int ch;
for (int length = 0; (ch = rd.read()) > -1 && (maxLength <= 0 || length < maxLength); length++)
buffer.append((char) ch);
rd.close();
hConnect.disconnect();
return buffer.toString().trim();
} catch (Exception e) {
logger.info("对方主动关闭socket连接,放弃抓取--" );//+ e.getMessage(), e);
//e.printStackTrace();
return "";
}
}
分享到:
相关推荐
python抓取网页数据入门知识,资料来源于网上共享
网页抓包数据分析工具
"运用正则抓取网页数据"的主题聚焦于使用正则表达式(Regular Expression,简称Regex)来提取网页中的有用信息。下面将详细介绍正则表达式的基本概念、在网页数据抓取中的应用以及如何结合编程语言实现这一过程。 ...
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
标题中的“一款通过网址抓网页的小软件”指的是一个轻量级的应用程序,它的主要功能是能够根据用户提供的网址,从互联网上抓取网页内容。这种软件通常被称作网络爬虫或者网页抓取工具,它可以帮助用户自动化地获取...
总结来说,"网页数据修改"是一个涵盖网络抓包、封包和发包的实践性技术,涉及到网络安全、网页交互和协议分析等多个方面。通过使用特定的工具和理解相关原理,可以有效地进行测试、调试和安全研究。而提供的压缩包...
httpwatch 9.3中文破解版(网页抓包数据分析工具) .rar
在描述中,“让你分析网页数据的信息内容”,暗示了这些工具可以揭示网页加载过程中服务器与客户端之间的交互细节,包括请求和响应的详细信息,如URL、HTTP方法(GET、POST等)、状态码、头部信息、Cookie以及传输的...
网页抓包浏览器是一种工具,主要用于监控、记录和分析网络数据包,特别是在网页浏览时的数据交互。易语言是一种中文编程语言,这款抓包浏览器是利用易语言编写的,旨在为用户提供便利的数据捕获和分析功能,有助于...
HttpWatch是强大的网页数据分析工具.集成在Internet Explorer工具栏.包括网页摘要.Cookies管理.缓存管理.消息头发送/接受.字符查询.POST 数据和目录管理功能.报告输出.HttpWatch 是一款能够收集并显示页页深层信息的...
在Windows系统上,你可以使用Wireshark,而在Web开发中,Fiddler和Charles则更为常用,因为它们专注于HTTP/HTTPS协议,这对于网页数据抓取非常有用。 接下来,让我们探讨如何抓取大众点评网的数据。大众点评网作为...
VB6提供了丰富的控件和类库,如MSXML(Microsoft XML)库,用于解析和操作XML文档,这在处理网页数据时非常有用。 1. **引入所需引用**:在VB6中,我们需要引入MSXML库,以便使用XMLHTTP对象进行HTTP请求。在工程...
网页抓包工具是一种用于监测和分析网络数据传输的软件,对于开发者、安全研究人员以及网络调试人员来说,这类工具是不可或缺的。WPE (Winsock Packet Editor) 和 CC (Cheat Engine) 以及 EG (Easy Graph) 的组合,是...
当网络连接出现故障,如网页加载缓慢、邮件发送失败等,可以通过抓包来分析数据包的传输路径和状态,找出可能的瓶颈或错误,帮助我们快速定位并解决问题。 再者,抓包工具能揭露软件的隐私行为。在当今大数据时代,...
HttpWatch 是一款强大的网页数据分析工具,可以集成在Internet Explorer工具栏. 包括: 网页摘要;Cookies管理;缓存管理;消息头发送/接受;字符查询;POST 数据和目录管理功能;报告输出 HttpWatch 是一款能够...
【标题】:“WSockExpert网页抓包工具” 【描述】:WSockExpert是一款强大的网络封包分析工具,专用于捕获和分析网页通信数据。它能够帮助用户深入了解网络应用程序的行为,尤其是在网页应用开发、测试、调试和网络...
HttpWatch是一款强大的网页数据分析工具,它被集成在Internet Explorer的工具栏中,便于用户实时监测和分析网页加载过程中的各种数据。无需使用代理服务器或者复杂的网络监控工具,HttpWatch就能捕获并显示网页请求...
很好的用R语言抓网上数据。主要用于金融研究,下载各金融市场数据。
在这个主题中,我们将深入探讨两个关键概念:Http协议和Jsoup库,它们是实现网页数据抓取的核心工具。 **Http协议** 是互联网上应用最为广泛的一种数据传输协议,全称为超文本传输协议。它定义了客户端(通常是...