URI、URL和URN是识别、定位和命名网上资源的标准途径。本文分析了URI、URL和URN的概念,以及Java的URI和URL类(以及与URL相关的类),并演示了如何在程序中使用这些类。
Internet被认为是全球的实际和抽象的资源的集合。实际的资源包括从文件(file)到人(person),抽象的资源包括数据库查询等。因为要通过多样的方式识别资源,所以需要标准的识别Internet资源的途径。为了满足这种需要,引入了URI、URL和URN。
URI、URL和URN的概念
URI
URI = Uniform Resource Identifier
There are two types of URIs: URLs and URNs.
See RFC 1630: Universal Resource Identifiers in WWW: A Unifying Syntax for the Expression of Names and Addresses of Objects on the Network as used in the WWW.
URL
URL = Uniform Resource Locator
See RFC 1738: Uniform Resource Locators (URL)
URN
URN = Uniform Resource Name.
URI、URL和URN是彼此关联的。URI位于顶层,URL和URN的范畴位于底层。URL和URN都是URI的子范畴。
URI翻译为统一资源标识,它是以某种标准化的方式标识资源的字符串。这种字符串以scheme开头,语法如下:
[scheme:] scheme-specific-part
URI以scheme和冒号开头。冒号把scheme与scheme-specific-part分开,并且scheme-specific-part的语法由URI的scheme决定。例如http://www.cnn.com,其中http是scheme,//www.cnn.com是 scheme-specific-part。
URI分为绝对(absolute)或相对(relative)两类。绝对URI指以scheme(后面跟着冒号)开头的URI。前面提到的http://www.cnn.com就是绝对的URI的一个例子,其它的例子还有mailto:jeff@javajeff.com、news:comp.lang.java.help和xyz://whatever。可以把绝对URI看作是以某种方式引用某种资源,而对环境没有依赖。如果使用文件系统作类比,绝对URI类似于从根目录开始的某个文件的路径。相对URI不以scheme开始,一个例子是articles/articles.html。可以把相对URI看作是以某种方式引用某种资源,而这种方式依赖于标识符出现的环境。如果用文件系统作类比,相对URI类似于从当前目录开始的文件路径。
URI可以进一步分为不透明的(opaque)和分层(hierarchical)的两类。不透明的URI指scheme-specific-part不是以‘/’开头的绝对的URI。其例子有news:comp.lang.java和前面的mailto:jeff@javajeff.com。不透明的URI不能做进一步的解析,不需要验证scheme-specific-part的有效性。与它不同的是,分层的URI是以‘/’开头的绝对的URI或相对的URL。分层的URI的scheme-specific-part必须被分解为几个组成部分。分层的URI的scheme-specific-part必须符合下面的语法:
[//authority] [path] [?query] [#fragment]
可选的授权机构(authority)标识了该URI名字空间的命名机构。如果有这一部分则以‘//’开始。它可以是基于服务器或基于授权机构的。基于授权机构有特定的语法(本文没有讨论,因为很少使用它),而基于服务器的语法如下:
[userinfo@] host [:port]
基于服务器的authority以用户信息(例如用户名)开始,后面跟着一个@符号,紧接着是主机的名称,以及冒号和端口号。例如jeff@x.com:90就是一个基于服务器的authority,其中jeff为用户信息,x.com为主机,90为端口。
可选的path根据authority(如果提供了)或schema(如果没有authority)定义资源的位置。路径(path)可以分成一系列的路径片断(path segment),每个路径片断使用‘/’与其它片断隔开。如果第一个路径片断以‘/’开始,该路径就被认为是绝对的,否则路径就被认为是相对的。例如,/a/b/c由三个路径片断a、b和c组成,此外这个路径是绝对的,因为第一个路径片断(a)的前缀是‘/’。
可选的query定义要传递给资源的查询信息。资源使用该信息获取或生成其它的的数据传递回调用者。例如,http://www.somesite.net/a?x=y, x=y就是一个query,在这个查询中x是某种实体的名称,y是该实体的值。
最后一个部分是fragment。当使用URI进行某种检索操作时,后面执行操作的软件使用fragment聚焦于软件感兴趣的资源部分。
分析一个例子ftp://george@x.com:90/public/notes?text=shakespeare#hamlet
上面的URI把ftp识别为schema,把george@x.com:90识别为基于服务器的authority(其中george是用户信息,x.com是主机,90是端口),把/public/notes识别为路径,把text=shakespeare识别为查询,把hamlet识别为片断。本质上它是一个叫做george的用户希望通过/public/notes路径在服务器x.com的90端口上检索shakespeare文本的hamlet信息。
URI的标准化(normalize)
标准化可以通过目录术语来理解。假定目录x直接位于根目录之下,x有子目录a和b,b有文件memo.txt,a是当前目录。为了显示memo.txt中的内容,你可能输入type \x\.\b\memo.txt。你也可能输入type \x\a\..\b\memo.txt,在这种情况下,a和..的出现是没有必要的。这两种形式都不是最简单的。但是如果输入\x\b\memo.txt,你就指定了最简单的路径了,从根目录开始访问memo.txt。最简单的\x\b\memo.txt路径就是标准化的路径。
通常通过base + relative URI访问资源。Base URI是绝对URI,而Relative URI标识了与Base URI相对的资源。因此有必要把两种URI通过解析过程合并,相反地从合并的URI中提取Relative URI也是可行的。
假定把x://a/作为Base URI,并把b/c作为Relative URI。Resolve这个相对URI将产生x://a/b/c。根据x://a/相对化(Relative)x://a/b/c将产生b/c。
URI不能读取/写入资源,这是统一的资源定位器(URL)的任务。URL是一种URI,它的schema是已知的网络协议,并且它把URI与某种协议处理程序联系起来(一种与资源通讯的读/写机制)。
URI一般不能为资源提供持久不变的名称。这是统一的资源命名(URN)的任务。URN也是一种URI,但是全球唯一的、持久不便的,即使资源不再存在或不再使用。
使用URI
Java API通过提供URI类(位于java.net包中),使我们在代码中使用URI成为可能。URI的构造函数建立URI对象,并且分析URI字符串,提取URI组件。URI的方法提供了如下功能:1)决定URI对象的URI是绝对的还是相对的;2)决定URI对象是opaque还是hierarchical;3)比较两个URI对象;4)标准化(normalize)URI对象;5)根据Base URI解析某个Relative URI;6)根据Base URI计算某个URI的相对URI;7)把URI对象转换为URL对象。
在URI里面有多个构造函数,最简单的是URI(String uri)。这个构造函数把String类型的参数URI分解为组件,并把这些组件存储在新的URI对象中。如果String对象的URI违反了RFC 2396的语法规则,将会产生一个java.net.URISyntaxException。
下面的代码演示了使用URI(String uri)建立URI对象:
URI uri = new URI ("http://www.cnn.com"); |
如果知道URI是有效的,不会产生URISyntaxException,可以使用静态的create(String uri)方法。这个方法分解uri,如果没有违反语法规则就建立URI对象,否则将捕捉到一个内部URISyntaxException,并把该对象包装在一个IllegalArgumentException中抛出。
下面的代码片断演示了create(String uri):
URI uri = URI.create ("http://www.cnn.com"); |
URI构造函数和create(String uri)方法试图分解出URI的authority的用户信息、主机和端口部分。对于正确形式的字符串会成功,对于错误形式的字符串,他们将会失败。如果想确认某个URI的authority是基于服务器的,并且能分解出用户信息、主机和端口,这时候可以调用URI的parseServerAuthority()方法。如果成功分解出URI,该方法将返回包含用户信息、主机和端口部分的新URI对象,否则该方法将产生一个URISyntaxException。
下面的代码片断演示了parseServerAuthority():
// 下面的parseServerAuthority()调用出现后会发生什么情况? |
一旦拥有了URI对象,你就可以通过调用getAuthority()、getFragment()、getHost()、getPath()、getPort()、getQuery()、getScheme()、getSchemeSpecificPart()和 getUserInfo()方法提取信息。以及isAbsolute()、isOpaque()等方法。
程序1: URIDemo1.java
import java.net.*; |
输入java URIDemo1命令后,输出结果如下:
query://jeff@books.com:9000/public/manuals/appliances?stove#ge |
URI类支持基本的操作,包括标准化(normalize)、分解(resolution)和相对化(relativize)。下例演示了normalize()方法。
程序2: URIDemo2.java
import java.net.*; |
在命令行输入java URIDemo2 x/y/../z/./q,将看到下面的输出:
Normalized URI = x/z/q
上面的输出显示y、..和.消失了。
URI通过提供resolve(String uri)、resolve(URI uri)和relativize(URI uri)方法支持反向解析和相对化操作。如果指定的URI违反了RFC 2396语法规则,resolve(String uri)通过的内部的create(String uri)调用间接地产生一个IllegalArgumentException。下面的代码演示了resolve(String uri)和relativize(URI uri)。
程序3: URIDemo3.java
import java.net.*; |
编译URIDemo3后,在命令行输入java URIDemo3 http://www.somedomain.com/ x/../y,输出如下:
Base URI = http://www.somedomain.com/ |
使用URL
Java提供了URL类,每一个URL对象都封装了资源标识符和协议处理程序。获得URL对象的途径之一是调用URI的toURL()方法,也可以直接调用URL的构造函数来建立URL对象。
URL类有多个构造函数。其中最简单的是URL(String url),它有一个String类型的参数。如果某个URL没有包含协议处理程序或该URL的协议是未知的,其它的构造函数会产生一个java.net.MalformedURLException。
下面的代码片断演示了使用URL(String url)建立一个URL对象,该对象封装了一个简单的URL组件和http协议处理程序。
URL url = new URL ("http://www.informit.com"); |
一旦拥有了URL对象,就可以使用getAuthority()、getDefaultPort()、 getFile()、 getHost()、 getPath()、getPort()、 getProtocol()、getQuery()、getRef()、getUserInfo()、getDefaultPort()等方法提取各种组件。如果URL中没有指定端口,getDefaultPort()方法返回URL对象的协议默认端口。getFile()方法返回路径和查询组件的结合体。getProtocol()方法返回资源的连接类型(例如http、mailto、ftp)。getRef()方法返回URL的片断。最后,getUserInfo()方法返回Authority的用户信息部分。还可以调用openStream()方法得到java.io.InputStream引用。使用这种引用,可以用面向字节的方式读取资源。
下面是URLDemo1的代码。该程序建立一个URL对象,调用URL的各种方法来检索该URL的信息,调用URL的openStream()方法打开与资源的连接并读取/打印这些字节。
程序4: URLDemo1.java
import java.io.*; |
在命令行输入java URLDemo1 http://www.javajeff.com/articles/articles/html后,上面的代码的输出如下:
Authority = http://www.javajeff.com … </html> |
URL的openStream()方法返回的InputStream类型,这意味着你必须按字节次序读取资源数据,这种做法是恰当的,因为你不知道将要读取的数据是什么类型。如果你事先知道要读取的数据是文本,并且每一行以换行符(\n)结束,你就可以按行读取而不是按字节读取数据了。
下面的代码片断演示了把一个InputStream对象包装进InputStreamReader以从8位过渡到16位字符,进而把结果对象包装进BufferedReader以调用其readLine()方法。
InputStream is = url.openStream (); System.out.println (line); is.close (); |
有时候按字节的次序读取数据并不方便。例如,如果资源是JPEG文件,那么获取一个图像处理过程并向该过程注册一个用户使用数据的方法更好。如果出现这种情况,你就有必要使用getContent()方法。
当调用getContent()方法时,它会返回某种对象的引用,而你可以调用该对象的方法(在转换成适当的类型后),采用更方便的方式取得数据。但是在调用该方法前,最好使用instanceof验证对象的类型,防止类产生异常。
对于JPEG资源,getContent()返回一个对象,该对象实现了java.awt.Image.ImageProducer接口。下面的代码演示了使用如何getContent()。
URL url = new URL (args [0]); |
查看一下getContent()方法的源代码,你会找到openConnection().getContent()。URL的openConnection()方法返回一个java.net.URLConnection对象。URLConnection的方法反映了资源和连接的细节信息,使我们能编写代码访问资源。
下面的URLDemo2代码演示了openConnection(),以及如何调用URLConnection的方法。
程序5: URLDemo2.java
import java.io.*; |
URLConnection的getHeaderFields()方法返回一个java.util.Map。该map包含header名称和值的集合。header是基于文本的名称/值对,它识别资源数据的类型、数据的长度等等。
编译URLDemo2后,在命令行输入java URLDemo2 http://www.javajeff.com,输出如下:
Date=[Sun, 17 Feb 2002 17:49:32 GMT] |
仔细看一下前面的输出,会看到叫做Content-Type的东西。Content-Type识别了资源数据的类型是text/html。text部分叫做类型,html部分叫做子类型。如果内容是普通的文本,Content-Type的值可能是text/plain。text/html表明内容是文本的但是html格式的。
Content-Type是多用途Internet邮件扩展(MIME)的一部分。MIME是传统的传输消息的7位ASCII标准的一种扩展。通过引入了多种header,MIME使视频、声音、图像、不同字符集的文本与7位ASCII结合起来。当使用URLConnection类的时候,你会遇到getContentType()和getContentLength()。这些方法返回的值是Content-Type和Content-Length的信息。
使用URL提交HTTP请求
你也许听说过HTML的<form>。它使我们能够从某种资源得到(GET)数据并按后来的处理把<form>的字段数据发送(POST)到某种资源。
假设你想把<form>数据发送(POST)到某个服务器程序。首先,<form>的数据必须组织为名称/值对(name/value pair),其次每个对必须指定为name=value格式,再次如果发送多个名称/值对,必须使用 & 符号把每对分开。最后name内容和value的内容必须使用application/x-www-form-urlencoded MIME类型编码。
为了辅助编码,Java提供了java.net.URLEncoder类,它声明了一对静态的encode()方法。每个方法有一个String参数并返回包含已编码的内容。例如,如果encode()发现参数中有空格,它在结果中用加号代替空格。
下面的代码演示了调用URLEncoder的encode(String s)方法,对‘a空格b’进行编码。结果a+b存储在一个新的String对象中。
String result = URLEncoder.encode ("a b"); |
另一个必须完成的事务是调用URLConnection的setDoOutput(boolean doOutput)方法,其参数的值必须为true。这种事务是必要的,因为URLConnection对象在默认情况下不支持输出。下面是URLDemo3的源代码,它演示了把窗体数据发送给某个资源。它实现了前面提到的各种事务。
程序6: URLDemo3.java
import java.io.*; |
URLDemo3编译后,在命令行输入java URLDemo3 name1 value1 name2 value2 name3 value3,你可以看到下面的输出:
<html>
<head>
<title>Echoing your name value pairs</title>
</head>
<body>
<ol>
<li>name1 : value1
<li>name2 : value2
<li>name3 : value3
</ol>
<hr>
Mon Feb 18 08:58:45 2002
</body>
</html>
URL和URLConnection类封装了大量的复杂的实现细节,这些细节涉及到怎样从远程站点获取信息。
例如:我们可以通过传递一个字符串来构建一个URL对象
URL url = new URL("urlString");
如果只是想要从该资源获取内容,可以用URL类提供的openStream方法。返回一个InputStream对象。
然后按照一般的方法进行获取,比如:
InputStream inStream = url.openStream();
Scanner in = new Scanner(inStream);
java.net包对统一资源定位符(uniform resource locator,URL)和统一资源标识符(uniform resource identifier,URI)
作了非常有用的区分。
URI是个纯粹的句法结构,用于指定标识web资源的字符串的各个不同部分。URL是URI的一个特例,它包含了用于定位
web资源的足够信息。其它URI,如: mailto:****@163.com 则不属于定位符,因为根据该标识符我们无法定位任何数据。
像这样的URI我们称为URN(uniform resource name ,统一资源名称)。
java的类库中,URI类不包含任何用于访问资源的方法,它的唯一作用就是解析。相反的是URL类可以打开一个到达资源的
流。因此,URL类只能作用于java类库知道该如何处理的模式,如:http:。https:.tfp:本地文件系统(file:)和jar文件(jar:)。为了
解对URI进行解析并不是可有可无的,要考虑它也许会变得非常复杂。如:
http://maps.yahoo.com/py/maps.py?csz=Cupertino+CA
ftp://username:password@ftp.youserver.com/pub/file.txt
URI规范出了标记这些标识符的规则。一个URI具有以下句法:
[scheme:]schemeSpecificPart[#fragment]
上面的式子中[...]表示可行部分,它与:和#可以被包含在标识符内。它包含scheme:部分的URI被称为绝对URI。否则,被称为相对URI。
如果绝对的透明URI的schemeSpecificPart不是以/开头的,我们就称它不是透明的。例如:
mailto:***@163.com 所以绝对的透明URI和所有相对URI都是分层的(hierarchical)。例如:
../../java/net/socket.html#Socket()
一个分层的URI的schemeSpecificPart具有以下的结构:[//authority][path][?query] 在这里,[....]同样表示可选。
对于那些基于服务器的URI,authority部分采用以下的形式:[user-info@]host[:port] port表示服务器中的端口必须是一个整数。
URI的作用之一是:解析标识符并将它分解成各种不同的组成部分。可用以下的方法读取各个部分:
getScheme getSchemeSpecificPart getAuthority getUserInfo getHost
getPort getPath getQuery getFragment
URI的另一个作用是:处理绝对标识符和相对标识符。如果存在一个如下的绝对URI:
http://docs.mycompany.com/api/java/net/ServerSocket.html
和一个如下的相对URI:
../../java/net/Socket.html#Socket()
那么可以把它们合并成一个绝对的URI:
http://doc.mycompany.com/api/java/net/Socket.html#Socket()
这个过程被 称为相对URL的转换。(resolving)
与此相反的过程被称为“相对化”。例如,有一个基本的URI:
http://docs.mycompany.com/api 和另一个URI:
http://doc.mycompany.com/api/java/lang/String.html 那么它们相对化之后的URI就是
java/lang/Stirng.htlml
URI类同时支持以下两个操作:
relative = base.relativize(combined);
combined = base.resolve(relative);
相关推荐
URI(Universal Resource Identifier)是统一资源标识,是互联网上资源的一种标准化标识方式,它能够唯一地标识任何资源,包括网页、图片、...在Java编程中,理解这些概念并正确使用URI和URL类,对于网络编程至关重要。
在Java 1.4及更高版本中,URI类的引入使得开发者在处理URI时有了更多的灵活性和规范性,尤其是在XML和其他标准中使用URI时。URL类虽然在网络操作中更为直接,但在处理字符串解析时可能不如URI类完善。总的来说,URI...
,URI、11URL、URN区别和JAVA中对应类.docx
,URI、11URL、URN区别和JAVA中对应类.pdf
Java 8 documentation for class URI, a good reference for recapping the concepts and use cases of URI/URL/URN.
总结起来,URI、URL和URN在Java网络编程中扮演着重要角色。理解它们的区别和使用方法是构建网络应用程序的基础。`java.net`包提供的`URI`和`URL`类为开发人员提供了方便的接口来处理这些标识符,而`URLConnection`则...
3. **Java.net.URL类**:在Java中,`java.net.URL`类是处理URL的核心类,用于创建和解析URL对象。构造URL对象通常需要指定协议、主机和资源路径。通过`openStream()`方法,我们可以获取到指向资源的字节输入流,从而...
在Java编程中,`java.net.URI`类是用来处理URI的,它可以表示绝对或相对的URI,而`java.net.URL`类则专门处理URL,它需要提供完整的定位信息,如协议、主机、路径等,因此不能表示相对路径。 在Java的Servlet API中...
此外,对于URI、URL和URN,它们都是资源的标识方式,但有其特定的用途。URI是统一资源标识符,包括URL和URN,是资源的唯一标识;URL是统一资源定位符,提供了获取资源的方式;URN是统一资源名称,仅标识资源,不提供...
URI是URL和URN的超集。 二、动态Web文档技术 * 服务器端动态文档技术包括CGI技术、服务器扩展技术和HTML页面中嵌入脚本技术,例如ASP、PHP和JSP技术。 * 客户端动态文档技术是指在HTML页面中嵌入JavaScript脚本...
在Java中,`java.net.URI`类提供了对URI的支持,包括创建、解析、比较和操作URI。以下是一些关键知识点: 1. **创建URI对象**: 使用`URI`类的构造函数,你可以创建一个新的URI对象。例如: ```java URI uri = ...
它可以解析、组合和比较URI,以及获取与URI相关的URL和URN(统一资源名称)。URI通常包括协议、主机、路径、查询参数等部分,是HTTP、HTTPS等网络请求的基础。 在压缩包的"ch12"目录下,很可能包含了关于这些网络...
通过这个项目,开发者可以深入理解URI的概念,学习如何在Java中正确地使用和操作URI,这对于开发涉及网络通信和文件操作的Java应用程序至关重要。同时,解决这些问题也能增强对Java标准库的熟悉程度,提升问题解决...
在Java中,URL(Uniform Resource Locator)是一种特殊类型的URI(Uniform Resource Identifier),用于定位互联网上的资源。URI是一个更为宽泛的概念,它不仅包括URL,还涵盖了URN(Uniform Resource Name)等其他...
3. 网络编程:书中将讲解如何使用Java编写网络应用程序,涉及套接字编程、URI、URL和URN的处理,以及如何利用Java的高级网络API,例如***包,进行网络通信。 4. 数据库编程设施:本章将介绍如何使用JDBC(Java...
以下将详细介绍Java Web中涉及的路径类型以及在JSP、Servlet和`web.xml`配置文件中的正确使用。 1. **基本概念** - **绝对路径**:绝对路径是文件或目录在文件系统中的完整路径,例如`C:\xyz\test.txt`。在网络...
URI包含了URL和URN,URL提供资源的定位,而URN则侧重于资源的唯一命名。具体的规范可以在RFC 2396(Uniform Resource Identifiers (URI): Generic Syntax)中找到。 综上所述,Java Web开发中的路径处理涉及多个...
4. **URL和URI**:统一资源定位符(URL)是互联网上资源的唯一地址,而统一资源标识符(URI)是更通用的概念,包括URL和URN(统一资源名称)。Java的java.net.URL类提供了访问和操作URL的功能。 5. **HTTP协议处理*...
在Servlet中使用`request.getRequestDispatcher(address)`进行页面转发时,`address`参数的路径应相对于当前Web应用的根目录。例如,要将请求转发到`/user/a.jsp`,正确的写法是`request.getRequestDispatcher("/...
对于URI、URL和URN等概念的具体定义,请参考RFC相关文档标准。例如: - [RFC2396: Uniform Resource Identifiers (URI): Generic Syntax](http://www.ietf.org/rfc/rfc2396.txt) #### JSP/Servlet中的相对路径和...