`
rich8w
  • 浏览: 180696 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Java爬虫的相对路径转绝对路径

    博客分类:
  • Java
阅读更多
最近在做个HTMLParser抓取网页内容;
有些网页的链接写的都是相对路径;
在CSDN上找到的,记录一下。

	@SuppressWarnings("finally")
	public static String getAbsoluteURL(String baseURI, String relativePath){
		String abURL=null;
		try {
			URI base=new URI(baseURI);//基本网页URI 
			URI abs=base.resolve(relativePath);//解析于上述网页的相对URL,得到绝对URI 
			URL absURL=abs.toURL();//转成URL 
			System.out.println(absURL);
			abURL = absURL.toString();
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (URISyntaxException e) {
			e.printStackTrace();
		} finally{
			return abURL;
		}
	}
分享到:
评论
1 楼 rich8w 2010-02-24  
设置User-Agent属性
    parser.getConnectionManager().getDefaultRequestProperties().put("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7");   
    Parser parser = new Parser();   
    parser.setEncoding("GB2312");   
    parser.setURL("http://www.xxx.com/show.jsp?id=216");  

相关推荐

    Java爬虫。。。。。

    Java爬虫技术是一种利用编程语言(本例中是Java)编写程序来自动化地抓取互联网上的数据的方法。这种技术在数据分析、市场研究、网站维护等多个领域都有广泛应用。Java作为一门面向对象的语言,提供了丰富的库和工具...

    基于http的Java爬虫爬取百度新闻

    在本项目中,“基于http的Java爬虫爬取百度新闻”是一个实例,它利用Java编程语言,通过HTTP协议来抓取百度新闻网站上的数据。这个项目的核心知识点包括HTTP协议的理解、Java编程基础、网络爬虫的实现以及对百度新闻...

    Java爬虫小例子,爬取小网站,突破防盗链下载图片

    - **URL链接处理**:从HTML中提取图片的URL,需要考虑相对路径与绝对路径的转换。 - **防盗链处理**:常见的防盗链策略有检查Referer字段,可以伪造Referer或使用代理IP绕过限制。 - **缓存机制**:为了节省网络...

    java爬虫资料 pdf 文档 视频 源码 都有

    综合以上,这个资源包涵盖了从理论到实践的全方位Java爬虫学习路径,包括基础理论、核心工具、实践案例以及进阶技术。通过系统学习,你可以掌握如何设计和实现高效的Java爬虫,理解爬虫在大数据分析、市场研究、信息...

    Java爬虫_分享_同步聊天 (1).zip

    Java爬虫技术是一种在互联网上自动获取网页信息的程序,它是大数据分析、信息抓取以及自动化测试等领域的重要工具。在本资料"Java爬虫_分享_同步聊天 (1).zip"中,我们可以推测包含了一些关于Java爬虫的教程、代码...

    java爬虫,抓取网页图片

    Java爬虫技术是一种利用编程语言(本例中是Java)自动化地从互联网上获取信息的手段。对于初学者来说,理解并实现一个简单的Java爬虫能够帮助他们掌握网络数据抓取的基本原理。在这个过程中,主要涉及以下几个核心...

    java爬虫项目实战源码.rar

    Java爬虫项目实战源码是针对使用Java编程语言进行网络数据抓取的实践教程,它涵盖了从基础到高级的各种爬虫技术。在这个项目中,开发者将有机会深入理解如何利用Java来构建一个完整的爬虫系统,这包括了网页的解析、...

    超详细注释基于BlogJava主页的java爬虫程序

    **超详细注释基于BlogJava主页的Java爬虫程序** 在信息技术领域,网络爬虫是一种自动化获取网页数据的工具,广泛应用于数据挖掘、搜索引擎索引和数据分析等场景。本项目是一个针对BlogJava(一个知名的Java技术交流...

    java 爬虫类

    Java爬虫类是一种用于自动化网页抓取的程序,它能够按照特定的规则遍历互联网上的网页,收集并处理数据。在Java中实现爬虫主要涉及网络请求、HTML解析、数据提取等多个技术环节。以下是对这些知识点的详细说明: 1....

    Java爬虫汽车之家图片

    【Java爬虫技术详解】 Java爬虫是一种使用Java编程语言实现的网络爬虫技术,它主要用于自动抓取互联网上的信息,如网页内容、图片等。在本案例中,项目组利用Java爬虫从汽车之家网站获取了12万张汽车图片,用于训练...

    java网络爬虫实例

    Java爬虫需要遵循这个协议,避免侵犯网站的权限。 7. **数据存储**:爬取的大量数据需要存储,可以选择关系型数据库如MySQL,NoSQL数据库如MongoDB,或文件系统如Hadoop HDFS,根据数据类型和规模选择合适的方式。 ...

    爬虫程序爬虫程序 java 数据挖掘

    根据给定文件的信息,我们可以提炼出以下关于Java爬虫程序及数据挖掘的相关知识点: ### Java爬虫程序概览 #### 一、Sosoo爬虫框架简介 Sosoo是一款用Java编写的开源网络爬虫框架,适用于进行大规模的数据抓取任务...

    java爬虫实战项目源码

    Java爬虫实战项目源码是针对有一定编程基础的开发者设计的学习资源,主要涵盖了Java语言在爬虫领域的应用。这个项目提供了完整的源代码,允许用户自行导入到编译工具中进行运行,以加深对爬虫技术的理解和实践。下面...

    zhizhu.rar_java 网络爬虫_java爬虫 mysql_数据库 爬虫_爬虫

    标签进一步细化了主题,包括"java_网络爬虫"、"java爬虫"、"mysql"、"数据库"和"爬虫"。这些标签强调了这个项目的核心技术点:使用Java进行网络爬虫开发,与MySQL数据库的交互,以及爬虫的相关知识。 压缩包内的...

    Java爬虫实例附源代码和说明

    深度优先策略则按照链接顺序深入抓取,直到完成一条路径后再转向其他起始页,这种方法在设计上相对简单。搜索引擎通常会根据网页的链接深度来判断其重要性,避免过于深入抓取不太重要的页面。 抓取过程中,爬虫可能...

    java图片爬虫程序,包括连接数据库

    首先,我们要理解Java爬虫的基本工作流程。它通常会从一个或多个起始URL开始,通过HTTP或HTTPS协议发送请求到服务器,获取HTML页面内容。这些内容由Java的网络库如`java.net.URL`和`java.net.HttpURLConnection`处理...

    网络爬虫算法 java

    网络爬虫是互联网信息自动化获取的一种技术,它通过模拟浏览器的行为,遍历并抓取网页内容,进而构建出庞大的数据集合。在Java中实现网络爬虫,需要掌握一系列相关技术,包括HTTP请求、HTML解析、数据存储等。下面将...

    java爬虫下载图片完整工程

    同时,需要考虑相对路径和绝对路径,以及可能存在的Base64编码图片。 5. **多线程与并发**:为了提高效率,爬虫可能需要同时处理多个请求。Java的并发库,如ExecutorService和Future,可以用来创建线程池,管理并发...

    java爬虫jsoup包

    **Java爬虫与Jsoup详解** Jsoup是一款强大的开源库,专为Java设计,用于解析HTML文档并提取结构化数据。这个库的核心功能是通过DOM(文档对象模型)、CSS选择器以及类似jQuery的操作方式,使得在Java中处理HTML变得...

    Java网络爬虫,附源码和文档

    在这个项目中,我们有一个开源的Java爬虫,它提供了完整的源码和详细的英文文档,非常适合学习和自定义扩展。 **Java爬虫基础** 1. **网络爬虫原理**:网络爬虫通常由HTTP请求、HTML解析、数据存储三部分组成。...

Global site tag (gtag.js) - Google Analytics