Java爬虫的相对路径转绝对路径 - 心中愉悦才能写出精彩动人的代码 - ITeye博客

`

rich8w

浏览: 182487 次
性别:
来自: 上海

最近访客更多访客>>

geeksun

uule

李笑笑lxx

zjznger

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

qingtianxl：识别率太低了
转：Java使用OpenCV进行人脸识别
ihopethatwell：楼主，在android中这个怎么使用？
转：Java使用OpenCV进行人脸识别
xht314：官网的下不了啊，我找到这里能下载MyEclipse6.5htt ...
转：MyEclipse6.5 GA 版下载、MyEclipse6.5 GA 注册码
luoting2762：呵呵。今天我也犯了一样的错误，删代码的时候，不小心多删除了，多 ...
There is no statement named xxx in this SqlMap 让我很莫名
rich8w： office 2007 鼠标失效 Office 2007， ...
mark_1022

Java爬虫的相对路径转绝对路径

博客分类：

Java

Java Windows Firefox JSP

阅读更多

最近在做个HTMLParser抓取网页内容；
有些网页的链接写的都是相对路径；
在CSDN上找到的，记录一下。

	@SuppressWarnings("finally")
	public static String getAbsoluteURL(String baseURI, String relativePath){
		String abURL=null;
		try {
			URI base=new URI(baseURI);//基本网页URI 
			URI abs=base.resolve(relativePath);//解析于上述网页的相对URL，得到绝对URI 
			URL absURL=abs.toURL();//转成URL 
			System.out.println(absURL);
			abURL = absURL.toString();
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (URISyntaxException e) {
			e.printStackTrace();
		} finally{
			return abURL;
		}
	}

分享到：

正则表达式特殊字符转义 | 《Java与模式阎宏摘录》.doc 更新中… ...

2009-12-22 12:08
浏览 3322
评论(1)
分类:非技术
查看更多

评论

1 楼 rich8w 2010-02-24

设置User-Agent属性

    parser.getConnectionManager().getDefaultRequestProperties().put("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7");   
    Parser parser = new Parser();   
    parser.setEncoding("GB2312");   
    parser.setURL("http://www.xxx.com/show.jsp?id=216");

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java爬虫。。。。。: Java爬虫技术是一种利用编程语言（本例中是Java）编写程序来自动化地抓取互联网上的数据的方法。这种技术在数据分析、市场研究、网站维护等多个领域都有广泛应用。Java作为一门面向对象的语言，提供了丰富的库和工具...

基于http的Java爬虫爬取百度新闻: 在本项目中，“基于http的Java爬虫爬取百度新闻”是一个实例，它利用Java编程语言，通过HTTP协议来抓取百度新闻网站上的数据。这个项目的核心知识点包括HTTP协议的理解、Java编程基础、网络爬虫的实现以及对百度新闻...

Java爬虫小例子，爬取小网站，突破防盗链下载图片: - **URL链接处理**：从HTML中提取图片的URL，需要考虑相对路径与绝对路径的转换。 - **防盗链处理**：常见的防盗链策略有检查Referer字段，可以伪造Referer或使用代理IP绕过限制。 - **缓存机制**：为了节省网络...

java爬虫资料 pdf 文档视频源码都有: 综合以上，这个资源包涵盖了从理论到实践的全方位Java爬虫学习路径，包括基础理论、核心工具、实践案例以及进阶技术。通过系统学习，你可以掌握如何设计和实现高效的Java爬虫，理解爬虫在大数据分析、市场研究、信息...

Java爬虫_分享_同步聊天 (1).zip: Java爬虫技术是一种在互联网上自动获取网页信息的程序，它是大数据分析、信息抓取以及自动化测试等领域的重要工具。在本资料"Java爬虫_分享_同步聊天 (1).zip"中，我们可以推测包含了一些关于Java爬虫的教程、代码...

java爬虫，抓取网页图片: Java爬虫技术是一种利用编程语言（本例中是Java）自动化地从互联网上获取信息的手段。对于初学者来说，理解并实现一个简单的Java爬虫能够帮助他们掌握网络数据抓取的基本原理。在这个过程中，主要涉及以下几个核心...

java爬虫项目实战源码.rar: Java爬虫项目实战源码是针对使用Java编程语言进行网络数据抓取的实践教程，它涵盖了从基础到高级的各种爬虫技术。在这个项目中，开发者将有机会深入理解如何利用Java来构建一个完整的爬虫系统，这包括了网页的解析、...

超详细注释基于BlogJava主页的java爬虫程序: **超详细注释基于BlogJava主页的Java爬虫程序** 在信息技术领域，网络爬虫是一种自动化获取网页数据的工具，广泛应用于数据挖掘、搜索引擎索引和数据分析等场景。本项目是一个针对BlogJava（一个知名的Java技术交流...

java 爬虫类: Java爬虫类是一种用于自动化网页抓取的程序，它能够按照特定的规则遍历互联网上的网页，收集并处理数据。在Java中实现爬虫主要涉及网络请求、HTML解析、数据提取等多个技术环节。以下是对这些知识点的详细说明： 1....

Java爬虫汽车之家图片: 【Java爬虫技术详解】 Java爬虫是一种使用Java编程语言实现的网络爬虫技术，它主要用于自动抓取互联网上的信息，如网页内容、图片等。在本案例中，项目组利用Java爬虫从汽车之家网站获取了12万张汽车图片，用于训练...

java网络爬虫实例: Java爬虫需要遵循这个协议，避免侵犯网站的权限。 7. **数据存储**：爬取的大量数据需要存储，可以选择关系型数据库如MySQL，NoSQL数据库如MongoDB，或文件系统如Hadoop HDFS，根据数据类型和规模选择合适的方式。 ...

爬虫程序爬虫程序 java 数据挖掘: 根据给定文件的信息，我们可以提炼出以下关于Java爬虫程序及数据挖掘的相关知识点： ### Java爬虫程序概览 #### 一、Sosoo爬虫框架简介 Sosoo是一款用Java编写的开源网络爬虫框架，适用于进行大规模的数据抓取任务...

java爬虫实战项目源码: Java爬虫实战项目源码是针对有一定编程基础的开发者设计的学习资源，主要涵盖了Java语言在爬虫领域的应用。这个项目提供了完整的源代码，允许用户自行导入到编译工具中进行运行，以加深对爬虫技术的理解和实践。下面...

zhizhu.rar_java 网络爬虫_java爬虫 mysql_数据库爬虫_爬虫: 标签进一步细化了主题，包括"java_网络爬虫"、"java爬虫"、"mysql"、"数据库"和"爬虫"。这些标签强调了这个项目的核心技术点：使用Java进行网络爬虫开发，与MySQL数据库的交互，以及爬虫的相关知识。压缩包内的...

Java爬虫实例附源代码和说明: 深度优先策略则按照链接顺序深入抓取，直到完成一条路径后再转向其他起始页，这种方法在设计上相对简单。搜索引擎通常会根据网页的链接深度来判断其重要性，避免过于深入抓取不太重要的页面。抓取过程中，爬虫可能...

java图片爬虫程序，包括连接数据库: 首先，我们要理解Java爬虫的基本工作流程。它通常会从一个或多个起始URL开始，通过HTTP或HTTPS协议发送请求到服务器，获取HTML页面内容。这些内容由Java的网络库如`java.net.URL`和`java.net.HttpURLConnection`处理...

网络爬虫算法 java: 网络爬虫是互联网信息自动化获取的一种技术，它通过模拟浏览器的行为，遍历并抓取网页内容，进而构建出庞大的数据集合。在Java中实现网络爬虫，需要掌握一系列相关技术，包括HTTP请求、HTML解析、数据存储等。下面将...

java爬虫下载图片完整工程: 同时，需要考虑相对路径和绝对路径，以及可能存在的Base64编码图片。 5. **多线程与并发**：为了提高效率，爬虫可能需要同时处理多个请求。Java的并发库，如ExecutorService和Future，可以用来创建线程池，管理并发...

java爬虫jsoup包: **Java爬虫与Jsoup详解** Jsoup是一款强大的开源库，专为Java设计，用于解析HTML文档并提取结构化数据。这个库的核心功能是通过DOM（文档对象模型）、CSS选择器以及类似jQuery的操作方式，使得在Java中处理HTML变得...

Java网络爬虫，附源码和文档: 在这个项目中，我们有一个开源的Java爬虫，它提供了完整的源码和详细的英文文档，非常适合学习和自定义扩展。 **Java爬虫基础** 1. **网络爬虫原理**：网络爬虫通常由HTTP请求、HTML解析、数据存储三部分组成。...

Global site tag (gtag.js) - Google Analytics