`

判断网页的编码

阅读更多
    判断网页的编码我们主要是为了在解析网页时出现一些乱码问题。主要用到了两个jar包
chardet.jar和cpdetector_1.0.7.jar。
具体的使用如下:
   
public class BianMa {

	public static void main(String[] args){
		
		String path="";
		CodepageDetectorProxy detector =   CodepageDetectorProxy.getInstance(); 
		detector.add(new ParsingDetector(true)); 
		detector.add(JChardetFacade.getInstance());  
		//ASCIIDetector用于ASCII编码测定  
		detector.add(ASCIIDetector.getInstance());  
		//UnicodeDetector用于Unicode家族编码的测定  
		detector.add(UnicodeDetector.getInstance());  
		java.nio.charset.Charset charset = null;  
		File f=new File("C:\\TEST\\13128931.html");  
		try {  
		      charset = detector.detectCodepage(new BufferedInputStream(new FileInputStream(f)),100);  
		} catch (Exception ex) {ex.printStackTrace();}  
		if(charset!=null){  
		     System.out.println(f.getName()+"编码是:"+charset.name());  
		}else{ 
		    System.out.println(f.getName()+"未知"); 
		} 
	}
	
}

    

   主要是读取页面的头文件的一段字符,然后分析。当然也可以变换下测试文本或其他类型文件的编码。
分享到:
评论

相关推荐

    判断网页编码的方法python版

    ### 判断网页编码的方法Python版 #### 背景与需求 在Web开发及爬虫技术的应用场景下,经常需要从互联网上抓取并解析网页数据。这些网页可能使用了不同的字符编码(如GBK、GB2312、UTF-8等),如果不正确识别其编码...

    C#获取网页编码—总结.pdf

    【C#获取网页编码】是编程中常见的任务之一,尤其对于网络爬虫或者数据分析来说,正确识别和处理网页编码至关重要。网页编码决定了字符在计算机内存和屏幕上的显示方式,如果处理不当,可能会出现乱码,影响信息的...

    asp(JavaScript)自动判断网页编码并转换的代码

    JavaScript自动判断网页编码并转换</title> </head> <%Server.ScriptTimeout=9999999; function send_request(url){ var codedtext; http_request = Server.CreateObject(

    php 判断网页是否是utf8编码的方法

    下面我们将详细讨论如何使用PHP和`mb_detect_encoding`来判断网页是否是UTF-8编码,并进行相应的转换。 首先,`mb_detect_encoding`函数的基本用法如下: ```php mb_detect_encoding(string $str, string $...

    判断字符串编码是utf-8还是gb23121

    在实际应用中,可以在网页上输出字符串的编码结果。首先,需要开启Apache服务器,然后打开浏览器,在浏览器地址栏中输入文件地址,例如“localhost:8888/PHParticle/079/Codes/index.php”,可以看到程序运行结果。 ...

    vbs或asp采集文章时网页编码问题

    然而,随着互联网的不断进步,对编码识别的精确度要求越来越高,自动判断网页编码的方法被提上日程。在网络中,网页编码通常会在HTTP响应头部中通过Content-Type字段给出,例如`Content-Type: text/html; charset=...

    易语言正则测试工具1.0正式版(Phoenixteam出品)

    易语言正则表达式测试工具可以读取指定网址的源码,并自动判断网页编码类型进行转码,有效避免出现读取的源码为乱码(如果发现读取的网址有乱码可以反馈给我),使用查找文本功能可以查找出源码中所有符合查找条件的...

    易语言判断UTF-8字符

    5. **实际应用**:这种功能在处理网络数据、文件读写、用户输入等场景非常有用,例如从网页抓取数据时,需要判断数据的编码格式,确保后续处理的正确性。 在压缩包内的"易语言判断UTF-8字符源码"文件中,应该包含了...

    搜索引擎实验报告1

    - 针对HTML文件编码错误的问题,使用chardet库自动判断网页编码,确保数据正确处理。 2. **PageRank计算**: - 根据抓取的网页构建图结构,计算每个网页的PageRank值,这是Google搜索引擎早期的关键技术之一,...

    python 获取网页编码方式实现代码

    在Python编程中,获取网页编码是一项重要的任务,特别是在处理网页数据和进行网络爬虫时。网页编码决定了如何正确地解析和显示网页中的文本内容。本文将深入探讨如何使用Python来自动检测并获取网页的编码方式。 ...

    网页编码解析包(chardet.jar,cpdetector_1.0.7.jar)

    网页编码是互联网上数据传输和显示的关键环节,不同的编码方式会影响网页内容的正确解析和显示。本压缩包提供了两个用于自动识别网页编码的Java库:`chardet.jar` 和 `cpdetector_1.0.7.jar`。下面将详细阐述这两个...

    asp.net 网页编码自动识别代码

    在描述中提到的“功能同HttpWebRequest获取网页源代码时自动识别网页编码”的功能,实际上是一个利用了C#网络编程能力,并结合正则表达式来解析网页HTML内容,从而实现自动检测网页编码的方法。该方法可以减少手动...

    判断文本文件编码的C#源码

    本文将深入探讨如何利用C#编程语言来判断文本文件的编码,并重点介绍使用NChardet库进行自动检测的方法。 NChardet是一个基于libchardet的C#实现,libchardet最初是Mozilla项目的一部分,用于识别网络传输的非ASCII...

    getWebPageResource:vb获取网页原始码(自动判断编码)

    本文将详细解析如何使用VB(Visual Basic)语言实现这一功能,并自动判断网页的编码方式。 首先,VB是Microsoft开发的一种面向对象的编程语言,广泛应用于Windows平台的软件开发。在获取网页原始码时,我们通常会...

    文件编码

    在信息化时代,无论是编程、网页制作还是日常的数据处理,我们都离不开文件编码。常见的编码格式有ASCII、Unicode(包括UTF-8、UTF-16等)以及GBK等。ASCII编码是早期最简单的编码方式,只能表示128个基本的英文字符...

    C#自动识别URL编码,asp.net自动识别URL编码

    在C#和ASP.NET中处理URL编码至关重要,因为这直接影响到网页的正常显示和请求的正确传递。 1. **C#中的URL编码与解码** - `Uri.EscapeUriString()`: 这个方法主要用于对整个URI进行编码,但不编码URI中的保留字符...

    判断文本编码是否为UTF-8格式易语言源码例子-易语言

    UTF-8是一种广泛使用的字符编码标准,尤其在互联网上,几乎所有的网页都采用UTF-8编码。这个"判断文本编码是否为UTF-8格式易语言源码例子"是一个针对初学者的教程,旨在教授如何在易语言中识别和验证文本文件的编码...

    Python使用chardet判断字符编码

    1. **检测网页编码** 例如,要检测一个网页的编码格式,可以使用如下代码: ```python import urllib.request import chardet # 打开指定URL并获取原始数据 raw_data = urllib.request.urlopen('...

Global site tag (gtag.js) - Google Analytics