/*
Function name: myGetHttpFile2
Description: 爬网页用
Input: URL 例如:http://www.126.com
Output: 字符串,网页的HTML
*/
public String myGetHttpFile2(String url){
String authentication=null;
ArrayList al=new ArrayList();
String PageURL = url;
PageURL = url ;
ArrayList urlCollection=new ArrayList();
Hashtable ht=new Hashtable();
//代理,如果要穿过代理将下面注释取消
//ht=System.getProperties();
//authentication = "Basic " + new sun.misc.BASE64Encoder().encode("代理的用户:代理的密码".getBytes());
//ht.put("proxySet", "true");
//ht.put("proxyHost", "172.16.20.2");
//ht.put("proxyPort", "80");
String urlSource=PageURL;
StringBuffer htmlBuffer=new StringBuffer();
String returnStr=null;
int codeStart=0;
int codeEnd=0;
int linkCount=0;
String getURL=null;
String realURL=null;
String urlText=null;
int from=0;
int lenURL=0;
int firstLink=0;
int endLink=0;
boolean isNewsLink=false;
try
{
URL su = new URL (urlSource);
URLConnection conn = su.openConnection();
//conn.setRequestProperty("Proxy-Authorization", authentication);
InputStream imageSource=new URL(urlSource).openStream();
int ch;
while((ch=imageSource.read())>-1)
{
htmlBuffer.append((char)ch);
}
imageSource.close();
returnStr= new String(htmlBuffer);
returnStr=new String(returnStr.getBytes("ISO8859_1"),"GBK");
}
catch(Exception e)
{
}
if(returnStr!=null){
return returnStr ;
}else{
return "empty" ;
}
}
分享到:
相关推荐
例如,我们可以使用`select()`方法选取CSS选择器匹配的元素,或者使用`text()`方法获取元素内的文本内容。 在爬虫设计中,要注意处理网络异常、重定向、登录验证等问题。例如,当遇到404错误时,需要适当地处理和...
Java爬虫获取网页表格数据并保存到MySQL数据库,包含完整代码
Java开发的网页爬虫是一种利用编程技术自动化抓取互联网上信息的工具,主要应用于数据分析、搜索引擎索引、市场研究等领域。在Java中实现网页爬虫,通常涉及到以下几个关键知识点: 1. **网络请求库**:Java中常用...
本文详细介绍了Java爬虫的基本概念、关键技术以及常用框架,并通过一个简单的示例演示了如何使用Java实现一个网页爬虫。在实际应用中,还需要考虑反爬策略、数据存储等问题。希望本文能为读者提供一定的参考价值。
Java网页爬虫是一种用于自动化地抓取互联网上信息的程序,尤其在大数据分析、搜索引擎索引和内容监控等领域有着广泛的应用。在这个特定的压缩包文件中,包含了一个名为"Robot"的Java类,用于实现抓取网页上所有链接...
JAVA爬虫是指使用JAVA编程语言来实现网页爬虫的技术。爬虫是指模拟用户的行为来自动获取网络资源的程序。JAVA爬虫可以用来自动登录淘宝网,实现自动登录淘宝网的功能。 在本例中,我们使用了Selenium工具来实现自动...
在这个"java网页爬虫demo"中,我们重点关注的是使用Java语言实现的一个完整示例。主类是"SpiderWidth.java",这表明该程序的核心逻辑在其中。 首先,我们要理解Java爬虫的基本构成。一个简单的Java爬虫通常包括以下...
Java爬虫技术是一种在互联网上自动获取网页信息的程序,它是大数据分析、搜索引擎优化和内容监控等领域的基础工具。在这个“Java爬虫详细完整源码实例”中,我们可以深入理解如何利用Java语言来构建一个功能完备的...
java网页爬虫 java网页爬虫 java网页爬虫 java网页爬虫
Java抓取网页的爬虫是一种自动化程序,用于从互联网上收集和处理大量数据。它模拟浏览器行为,通过HTTP协议向服务器发送请求,并接收返回的HTML或其他格式的网页内容。在这个过程中,开发者通常会使用到一系列Java库...
在IT行业中,Java爬虫是一项重要的技术,它用于自动化地从网页中提取所需的数据。本教程将通过一个完整的示例,教你如何使用Java编写爬虫程序,一键获取并下载网络上的数据。Java作为多用途的编程语言,尤其适合构建...
通过上述方法,结合Jsoup和HttpClient,开发者可以构建出一个能够抓取动态网页内容的爬虫程序。这不仅适用于商品价格的抓取,也适用于其他需要抓取动态数据的场景。但需要注意的是,爬取数据时应遵守网站的robots....
Java爬虫爬取网页数据是一种常见的技术,用于自动地从互联网上抓取信息。这个工具提供了方便的方法来解析HTML和XML文档,提取所需的数据。在Java中,我们通常使用库如Jsoup或Apache HttpClient来实现爬虫功能。下面...
`TXT.java`可能包含了将HTML内容转换成纯文本的方法,例如去除HTML标签,提取文章内容,或者进行关键词提取等。如果涉及到文件操作,可能会使用Java的`File`和`BufferedReader`类读写文件。 标签中提到了“图片文档...
Java爬虫技术是一种利用编程语言(本例中是Java)自动化地从互联网上...通过以上知识点的学习和实践,你可以构建一个基本的Java图片爬虫,实现从网页中抓取并下载图片的功能。记住,持续学习和实践是提升技能的关键。
本项目是一个基于Java的网页爬虫1.5版本,主要关注聚焦爬虫的设计和实现,旨在高效地抽取特定主题的网页内容。 聚焦爬虫与通用爬虫不同,它的目标不是无差别地抓取整个互联网,而是针对某一特定领域或主题,如科技...
Java爬虫是一种使用Java编程语言实现的网络爬虫技术,主要用于自动抓取互联网上的信息。在Java中,我们可以利用各种库来构建一个简单的爬虫,例如Jsoup、Apache HttpClient、WebMagic等。以下是对Java爬虫实现的一些...
"Amazon.rar_amazon 爬_java爬虫"这个标题表明这是一个使用Java编程语言编写的爬虫程序,其目标是抓取亚马逊(Amazon)网站上的数据,特别是与衣服相关的图片和资料。"rar"是压缩文件格式,意味着这个程序已经被打包...
Java爬虫通常基于HTTP协议,使用Java的HttpURLConnection或者HttpClient库来发送HTTP请求,获取网页的HTML源代码。例如,`HttpURLConnection`是Java标准库中的类,可以方便地发起GET或POST请求;而`HttpClient`(如...