`
liuxinglanyue
  • 浏览: 565156 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

判断网页的编码(转)

阅读更多

判断网页的编码我们主要是为了在解析网页时出现一些乱码问题。主要用到了两个jar包 
chardet.jar和cpdetector_1.0.7.jar。 
具体的使用如下: 

public class BianMa {

	public static void main(String[] args){
		
		String path="";
		CodepageDetectorProxy detector =   CodepageDetectorProxy.getInstance(); 
		detector.add(new ParsingDetector(true)); 
		detector.add(JChardetFacade.getInstance());  
		//ASCIIDetector用于ASCII编码测定  
		detector.add(ASCIIDetector.getInstance());  
		//UnicodeDetector用于Unicode家族编码的测定  
		detector.add(UnicodeDetector.getInstance());  
		java.nio.charset.Charset charset = null;  
		File f=new File("C:\\TEST\\13128931.html");  
		try {  
		      charset = detector.detectCodepage(new BufferedInputStream(new FileInputStream(f)),100);  
		} catch (Exception ex) {ex.printStackTrace();}  
		if(charset!=null){  
		     System.out.println(f.getName()+"编码是:"+charset.name());  
		}else{ 
		    System.out.println(f.getName()+"未知"); 
		} 
	}
	
}

    

 主要是读取页面的头文件的一段字符,然后分析。当然也可以变换下测试文本或其他类型文件的编码。

cpdetector_1.0.7.jar (50.3 KB)

chardet.jar (35.7 KB)

分享到:
评论

相关推荐

    C#获取网页编码—总结.pdf

    【C#获取网页编码】是编程中常见的任务之一,尤其对于网络爬虫或者数据分析来说,正确识别和处理网页编码至关重要。网页编码决定了字符在计算机内存和屏幕上的显示方式,如果处理不当,可能会出现乱码,影响信息的...

    GBK编码转换和UTF-8编码转换模块源码

    3. 对于UTF-8编码的字符串,由于UTF-8本身就是变长编码,每个Unicode字符可能对应1到4个字节,所以转换时需要逐字节处理,并根据字节流判断对应的Unicode字符,然后进行URL编码。 4. 返回URL编码后的字符串。 在...

    asp(JavaScript)自动判断网页编码并转换的代码

    JavaScript自动判断网页编码并转换</title> </head> <%Server.ScriptTimeout=9999999; function send_request(url){ var codedtext; http_request = Server.CreateObject(

    判断网页编码的方法python版

    ### 判断网页编码的方法Python版 #### 背景与需求 在Web开发及爬虫技术的应用场景下,经常需要从互联网上抓取并解析网页数据。这些网页可能使用了不同的字符编码(如GBK、GB2312、UTF-8等),如果不正确识别其编码...

    php 判断网页是否是utf8编码的方法

    下面我们将详细讨论如何使用PHP和`mb_detect_encoding`来判断网页是否是UTF-8编码,并进行相应的转换。 首先,`mb_detect_encoding`函数的基本用法如下: ```php mb_detect_encoding(string $str, string $...

    HTML编码转换.rar

    在易语言实现的HTML编码转换源码中,开发者通常会使用循环结构、条件判断和字符串操作来完成这些任务。通过学习和理解这段源码,你可以掌握如何在易语言中处理字符串编码问题,这对于进行网页开发或者处理用户输入...

    易语言JS实现编码转换源码.7z

    8. **实际应用场景**:编码转换常见于网页爬虫、数据导入导出、多语言网站开发等场景,理解这些场景可以帮助你更好地理解源码的用途。 通过对这些知识点的学习和理解,你可以深入掌握编码转换的核心原理,并能运用...

    易语言判断UTF-8字符

    5. **实际应用**:这种功能在处理网络数据、文件读写、用户输入等场景非常有用,例如从网页抓取数据时,需要判断数据的编码格式,确保后续处理的正确性。 在压缩包内的"易语言判断UTF-8字符源码"文件中,应该包含了...

    python 获取网页编码方式实现代码

    在Python编程中,获取网页编码是一项重要的任务,特别是在处理网页数据和进行网络爬虫时。网页编码决定了如何正确地解析和显示网页中的文本内容。本文将深入探讨如何使用Python来自动检测并获取网页的编码方式。 ...

    网页编码解析包(chardet.jar,cpdetector_1.0.7.jar)

    网页编码是互联网上数据传输和显示的关键环节,不同的编码方式会影响网页内容的正确解析和显示。本压缩包提供了两个用于自动识别网页编码的Java库:`chardet.jar` 和 `cpdetector_1.0.7.jar`。下面将详细阐述这两个...

    文件编码

    在信息化时代,无论是编程、网页制作还是日常的数据处理,我们都离不开文件编码。常见的编码格式有ASCII、Unicode(包括UTF-8、UTF-16等)以及GBK等。ASCII编码是早期最简单的编码方式,只能表示128个基本的英文字符...

    asp.net 网页编码自动识别代码

    在描述中提到的“功能同HttpWebRequest获取网页源代码时自动识别网页编码”的功能,实际上是一个利用了C#网络编程能力,并结合正则表达式来解析网页HTML内容,从而实现自动检测网页编码的方法。该方法可以减少手动...

    易语言源码模块将任何编码转换到GB.rar

    在许多老系统的文档和网页中,GB2312编码仍然是常见的存在。然而,随着Unicode的普及,越来越多的系统和应用采用UTF-8等多语言支持的编码,这就需要将这些不同的编码转换成GB2312,以便于兼容旧的系统或设备。 此...

    判断文本文件编码的C#源码

    本文将深入探讨如何利用C#编程语言来判断文本文件的编码,并重点介绍使用NChardet库进行自动检测的方法。 NChardet是一个基于libchardet的C#实现,libchardet最初是Mozilla项目的一部分,用于识别网络传输的非ASCII...

    文件编码格式批量转换工具.rar

    描述中提到“文件编码格式批量转换,转UTF-8等编码加”,这暗示该工具不仅限于UTF-8,可能还支持其他编码格式的转换,例如GBK、BIG5等,这些是中文环境下常用的编码格式,尤其在老系统或旧文档中较为常见。...

    C#自动识别URL编码,asp.net自动识别URL编码

    在C#和ASP.NET中处理URL编码至关重要,因为这直接影响到网页的正常显示和请求的正确传递。 1. **C#中的URL编码与解码** - `Uri.EscapeUriString()`: 这个方法主要用于对整个URI进行编码,但不编码URI中的保留字符...

    判断文本编码是否为UTF-8格式易语言源码例子-易语言

    UTF-8是一种广泛使用的字符编码标准,尤其在互联网上,几乎所有的网页都采用UTF-8编码。这个"判断文本编码是否为UTF-8格式易语言源码例子"是一个针对初学者的教程,旨在教授如何在易语言中识别和验证文本文件的编码...

    getWebPageResource:vb获取网页原始码(自动判断编码)

    本文将详细解析如何使用VB(Visual Basic)语言实现这一功能,并自动判断网页的编码方式。 首先,VB是Microsoft开发的一种面向对象的编程语言,广泛应用于Windows平台的软件开发。在获取网页原始码时,我们通常会...

Global site tag (gtag.js) - Google Analytics