URL无处不在,不过似乎开发人员并没有真正地理解它们,因为我在Stack Overflow上经常看到有人在问如何正确的创建一个URL。想知道URL语法是如何工作的,可以看下Lunatech的
这篇文章,非常不错 。
本文不会深入介绍URL的全部语法(如果你想全面了解URL的话,可以读下
RFC 3986,
RFC 1738, 以及上面提到的那篇文章,还有
W3上面的文档), 这里我想讲的是常见的一些库在操作URL方面存在的错误,以及如何通过
URL-builder来正确的使用它,这是我们发布的一个用于正确地创建URL的Java库。
问题1:Java的URLEncoder
这个类不仅名字取的很差,而且它的文档上来第一句话就不太对头。
[i]Utility class for HTML form encoding.</blockquote>
你可能正纳闷为什么叫URLEncoder呢,看到这行就彻底无语了。
如果你读过Lunatech的那篇博文,现在你应该明白了,你没法通过这个类将一个URL串奇迹般地转化成一个安全,正确编码的URL对象,当然如果你没做足功课的话,这里有个小例子可以帮助你理解下。
假设你有个HTTP的服务端点http://foo.com/search,它接受一个查询参数p,p的值就是要查找的字符串。如果你搜索"You & I"这个串的话,你第一次创建的搜索的URL可能是这样:http://foo.com/search?q=You & I。这个当然没法工作,因为&是分隔查询参数name/value对的分隔符。如果你拿到这个错乱的URL串的话,你对它简直束手无策,因为首先你就没法正确的解析它。
那好,我们来使用下URLEncoder。URLEncoder.encode("You & I", "UTF-8")是结果是You+%26+I。这个%26解码之后就是&,而+号在查询串中代表的就是空格,因此这个URL是能正常工作的。
现在假设你想使用你的查询串来拼接URL路径,而不是放到URL参数里面。很明显,http://foo.com/search/You & I是错误的。不幸的是,URLEncoder.encode()的结果也是错的。http://foo.com/search/You+%26+I解码后会得到/search/You+&+I,因为+号在URL路径中是不会解析成空格的。
URLEncoder或许能满足你的一些场景。但不幸的是,它这个过于通用的名字使得开发人员很容易误用它。因此最好的方法就是不要使用它,免得后面别的开发人员在你的基础上又使用了别的功能时犯错(除非,你真的是在进行"HTML表单编码")。
问题2:Groovy HttpBuilder以及Java的URI
HTTP Builder是Groovy的一个HTTP客户端库。
创建一个普通的GET请求非常简单:
new HTTPBuilder('http://localhost:18080').request(Method.GET) {
uri.path = '/foo'
}
这段代码会发送GET /foo HTTP/1.1到服务端(你可以运行nc -l -p 18080之后再执行这段代码验证下)。
我们来试一下包含空格的URL。
new HTTPBuilder('http://localhost:18080').request(Method.GET) {
uri.path = '/foo bar'
}
这个发送的是GET /foo%20bar HTTP/1.1,看起来还不错。
现在假设我们的路径中有一段就叫做foo/bar。这可不能简单地发送foo/bar就完了,因为这会被认为成路径中包含两段,foo和bar,那我们试下foo%2Fbar吧(把/替换成对应的编码)。
new HTTPBuilder('http://localhost:18080').request(Method.GET) {
uri.path = '/foo%2Fbar'
}
这个发送的则是GET /foo%252Fbar HTTP/1.1。这可不太妙。%2F中的%被重复编码了,这样解码后拿到的路径是foo%2Fbar而不是foo/bar。这里其实真正要怪的是java.net.URI,因为这个HTTPBuilder里的URIBuilder类用的就是它。
上述代码中的配置闭包中暴露的uri属性的类型是URIBuilder。如果你通过uri.path = ...来更新uri的path属性的话,它最终会调用URI的一个构造方法,这个方法对于传入的path属性是这么描述的:
[i]如果提供了path参数,则将它追加到URL后面。path里面的字符,只要不是非保留,标点,转义及其它分类(译注:这几个分类在RFC 2396中有详细说明)的字符,同时又不是/或者@号的,都会进行编码。</blockquote>
这个做法意义不大,因为如果未编码前的文本包含特殊字符的话,它就无法生成一个正确编码的路径分段。换句话说,“我会对这个字符串进行编码,而编码之后它就是正确的”,这当然是个谬论,而URI正好是这个谬论的牺牲品。如果字符串已经正确编码了,那就没什么问题,如果不是的话,那就完蛋了,因为这个串没法解析。事实上,文档里说的不会对/号转义的意思是,它假设path串已经正确地编码了(就是说正确地使用/来分隔路径),同时又还没有正确地编码(除了/外的其它部分仍然需要进行编码)。
如果HTTPBuilder不使用URI类的这个存在缺陷的功能就好了,当然了,如果URI自己本身没问题的话就更好了。
正确的做法
我们写了这个url-builder,它能帮助开发人员方便的拼接各种类型的URL。它遵循了篇首那几个参考资料中的编码规范,同时它还提供了流式的API。下面这个使用示例几乎可以涵盖所有的使用场景了:
UrlBuilder.forHost("http", "foo.com")
.pathSegment("with spaces")
.pathSegments("path", "with", "varArgs")
.pathSegment("&=?/")
.queryParam("fancy + name", "fancy?=value")
.matrixParam("matrix", "param?")
.fragment("#?=")
.toUrlString()
结果是:
http://foo.com/with%20spaces/path/with/varArgs/&=%3F%2F;matrix=param%3F?fancy%20%2B%20name=fancy?%3Dvalue#%23?=
这个例子演示了URL各个部分的不同的编码规则,比如说在路径中未编码的&=是允许的,而?/则是需要编码的,但在查询参数中=是需要编码的,但?号则不需要,因为这里已经是查询串的部分了(译注:查询串是从一个?号开始的,因此后面可以包含?号)。
更多示例请参考这里的
测试用例以及
UrlBuilder类。
原创文章转载请注明出处:
http://it.deepinmind.com
英文原文链接
分享到:
相关推荐
本文将深入探讨Java中常见的URL问题以及相应的解决方案。 1. **URL编码与解码** 在URL中,某些字符如空格、&等是不被允许直接使用的,因为它们在URL语法中有特殊含义。Java提供了`URLEncoder`类来处理这个问题。...
Java在创建URL时可能会遇到一些常见问题,这些问题通常与URL编码、解码和构造不当有关。本文将探讨其中两个关键问题及其解决方案。 问题1:Java的`URLEncoder`类使用误区 `URLEncoder`类虽然名为URL编码器,但实际...
在Java编程环境中,将URL内容转换为PDF文件是一项常见的需求,尤其在数据抓取、文档保存或自动化报告生成等场景中。"java URL转PDF文件(完美支持中文)"的主题着重于如何利用Java库来实现这一功能,并且确保中文字符...
2. `run()`方法:在这个方法中,线程会从输入流中读取指定范围的数据,并写入到输出文件的对应位置。 ```java public class DownloadThread extends Thread { private long startOffset; private long endOffset;...
总之,Java调用浏览器打开URL地址主要依赖于`java.awt.Desktop`类的`browse()`方法,这是一种跨平台且易于使用的解决方案。如果需要更精细的控制,可以考虑使用特定浏览器的命令行接口。在实际开发中,确保对各种...
### Java Web开发中常见的中文乱码问题解析 在Java Web开发过程中,中文乱码问题是开发者经常遇到的一个挑战。这些问题主要源于Java默认的Unicode编码与HTML页面及表单默认的Latin-1编码之间的不兼容,以及在不同的...
在Java编程中,将文本内容中的符合URL格式的字符串转换为超链接是一项常见的需求,特别是在处理用户生成内容或网络爬虫应用中。本教程将详细讲解如何使用Java实现这一功能,主要涉及URL正则表达式匹配和字符串处理...
Java编程中中文乱码问题是一个常见的困扰开发者的问题,尤其是在Java Web开发环境中。Java语言本身使用Unicode编码,这是一种全球化的标准,确保了各种字符集的兼容性。然而,Unicode编码在与其他系统交互时,如...
Java编程中的中文乱码问题是一个常见但棘手的挑战,主要源于编码格式的不匹配和转换过程中的错误。本文深入探讨了这个问题,并提供了解决方案。 首先,我们要理解中文字符编码的历史背景。早期的计算机系统主要支持...
Java 中文乱码问题的解决方法 1. 使用 UTF-8 编码 在 Java 中,默认的编码方式是 UNICODE,所以用中文也易出问题。常见的解决方法是使用 UTF-8 编码。例如,在 JSP 中,可以加入以下代码: `<%@ page language="...
在Java项目开发中,尤其是基于Struts框架的应用,可能会遇到服务器启动时的异常问题,比如在本案例中遇到的“ClassNotFoundException: org.apache.commons.dbcp.BasicDataSource”。这个问题通常出现在尝试加载...
在Java项目开发中,尤其是使用JSP技术时,经常遇到的中文乱码问题是一个常见的困扰。这涉及到编码和解码的过程,以及不同平台和环境之间的兼容性问题。Java的默认编码是Unicode,而中文文件和数据库通常使用GB2312或...
这时,可以在程序中配置代理信息,如通过`java.net.ProxySelector.setDefault`方法设置默认的代理选择器,或者在代码中显式创建`java.net.URL`对象并指定代理参数,以确保网络请求能够通过代理服务器顺利发送。...
本文将详细介绍如何在Java中解决GET请求中文乱码问题,并提供一种有效的方法。 #### 一、理解GET请求中文乱码的原因 在HTTP协议中,GET请求参数通常被附加在URL后面,浏览器会自动对这些参数进行编码,这个过程...
以下是一些常见问题及其解决方案: 1. **请求头的Content-Type设置**:在发送POST请求时,我们需要设置`Content-Type`为`application/x-www-form-urlencoded`或`application/json`等,并指定正确的字符集,如`...
在Java编程中,读取远程网页内容是一项常见的任务,但可能会遇到编码问题导致乱码。本文将深入探讨这个问题,提供有效的解决方案,确保正确地读取和处理远程网页的字符编码。 首先,理解网页编码至关重要。网页通常...
根据提供的文件信息,我们可以总结出一系列与JSP开发相关的知识点,包括常见的问题及其解决方法。以下是对这些知识点的详细解析: ### 1. JSP在不同操作系统中的执行 - **问题描述**:如何让JSP在Linux和Windows...