`
gjhappyyy
  • 浏览: 260542 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

非法字符: \65279 (utf-8 BOM标记)

 
阅读更多

Linux先使用grep -r $'\xEF\xBB\xBF' * |grep .php 查看文件编码,然后是用vi命令打开文件,然后在使用:set nobomb,文件编码修改完成。 

以下附有BOM的简单介绍: 
Unicode规范中有一个BOM的概念。BOM——Byte Order Mark,就是字节序标记。在这里找到一段关于BOM的说明: 

在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。 

UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。 

Windows就是使用BOM来标记文本文件的编码方式的。 

另外unicode网站的FAQ-BOM详细介绍了BOM。官方的自然权威,不过是英文的,看起来比较费劲。 

UTF-8编码的文件中,BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话,用UE打开这个文件,切换到十六进制编辑状态就可以看到开头的FFFE了。这是个标识UTF-8编码文件的好办法,软件通过BOM来识别这个文件是否是UTF-8编码,很多软件还要求读入的文件必须带BOM。可是,还是有很多软件不能识别BOM。我在研究Firefox的时候就知道,在Firefox早期的版本里,扩展是不能有BOM的,不过Firefox 1.5以后的版本已经开始支持BOM了。现在又发现,PHP也不支持BOM。 

PHP在设计时就没有考虑BOM的问题,也就是说他不会忽略UTF-8编码的文件开头BOM的那三个字符。由于必须在<?或者<?php后面的代码才会作为PHP代码执行,所以这三个字符将会直接输出。如果遇到header(),session(),cookie()等问题,将会导致乱码或显示白屏等问题.

 

常见编码的BOM

UTF-8的BOM

UTF-8的BOM是三个字节:0xEF, 0xBB, 0xBF,这三个字节在UTF-8编码里是没有意义的。

UTF-8的BOM是不推荐使用的,但MS仍然在使用,因此导出UTF-8时,不加这三个字节,MS打开就会乱码。

UTF-16的BOM

UTF-16的Big endian的BOM是:0xFE, 0xFF。

UTF-16的Littal endian的BOM是: 0xFF, 0xFE。

GB18030的BOM

GB18030的BOM是:0x81,0x31,0x95,0x33。

 

如果你遇见过这样的问题: 非法字符: \65279
今天可以帮你解决!
众所周知,在跨程序的工程中,统一编码是至关重要的,而目前最普遍的则是统一采用“utf8”编码方案。
但是在采用utf8方案的时候,请注意编辑器的自作聪明。
比如editplus。
原因就在于某些编辑器会往utf8文件中添加utf8标记(editplus称其为签名),它会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM),它的表示的是 Unicode 标记(BOM)。
因此要解决这个问题的关键就是把这个标记选项去掉。

首先用editplus打开这个文件,从Doucument菜单中选择Permanet Settings,有三个分类,分别是General, File, Tools.点击File,右边会有一项是 UTF-8 signature: 选择 always remove signature. 点击OK

中文版本的 editplus 下操作的菜单结构如下: 文档->参数设置->文件->UTF-8签名->总是移除签名->确定

这样就设置了UTF-8格式不需要在文件前面加标记。
最后把文件另存为utf-8格式就好了.

 

在程序中读取文件时做下判断,看是否需要去掉第一行的第一个char,代码如下: 
     InputStreamReader FS = new InputStreamReader(in, "UTF-8"); 
     BufferedReader SR = new BufferedReader(FS); // 文件输入流为 
     String strLine = SR.readLine(); 
     if (strLine.length()>1){ 
     if ((int)strLine.charAt(0)==65279){ 
       strLine=strLine.substring(1); 
     } 
   }

分享到:
评论

相关推荐

    2UTF-1.22.tar.gz_utf-8 c++

    1. 字符编码:理解UTF-8编码的原理,包括它的字节顺序标记(BOM)、单字节、多字节字符的表示方式。 2. 字符串操作:C++中的字符串处理,如std::string类的使用,以及如何在C++中进行UTF-8字符串的遍历、比较、查找...

    易语言UTF-8编码转换工具

    易语言UTF-8编码转换工具是一款专为编程者和数据处理人员设计的实用软件,它主要功能是将文本文件在不同编码格式之间进行转换,尤其是针对UTF-8编码的处理。在信息技术领域,字符编码是一种重要的技术,用于规定如何...

    判断字符编码格式代码

    常见的字符编码包括ASCII、UTF-8、Unicode等。不同编码方式下,同一字符可能被表示为不同的数字序列。因此,在处理来自不同源的数据时,能够正确识别其使用的字符编码至关重要。 ### 二、字符编码简介 #### 1. ...

    字符编码文档

    5. **UTF编码**:Unicode的实现方式之一就是UTF(Unicode Transformation Format),有UTF-8、UTF-16等多种变体。UTF-8是目前最常用的编码格式,它对每个字符使用1到4个字节;UTF-16则通常使用2或4个字节。 **三、...

    Unicode编码转换器

    过程中需要处理编码标识符、BOM(字节顺序标记)以及各种编码特有的异常情况,比如未知字符或非法字节序列。 在编程领域,了解和使用Unicode编码转换器对于开发跨平台的应用程序和处理国际化问题至关重要。开发者...

    一段检测字节数组的编码方式的代码

    例如,UTF-8的BOM(字节顺序标记)是`FF FE`或`FE FF`,可以通过查找这些模式来初步判断。 3. **尝试解码**:使用各种编码尝试解码字节数组,并检查解码结果是否合理。这可能包括检查解码后的字符串是否包含非法...

    matlab开发-unicode2ascii

    Unicode文件可能以特定的字节顺序标记(BOM)开始,如UTF-16LE或UTF-16BE,或者是无BOM的UTF-8。该函数会检查这些特征并返回一个布尔值,指示文件是否使用Unicode编码。 `unicode2ascii.m`是核心转换函数。它接收...

    python读取中文txt文本的方法

    # 检查并处理UTF-8 BOM(字节顺序标记) if line.startswith(codecs.BOM_UTF8): line = line[3:] decoded_line = line.decode('utf-8') ``` 如果TXT文件是GBK编码的,读取方法类似,只需更换解码方式: ```...

    java utils 工具类

    1. **文件头分析**:大多数编码方式会在文件的开始部分存储一些标识符,例如UTF-8的BOM(字节顺序标记)。该工具类可能通过读取文件的前几个字节来识别这些标识符,从而确定文件的字符集。 2. **统计分析**:对于...

    易语言-编码转换模块

    在编程中,字符编码是用于表示文本的一系列规则,常见的有ASCII、GB2312、GBK、UTF-8等。不同的编码格式对应着不同的字符集,如果不进行正确的转换,可能会导致乱码现象。易语言的编码转换模块提供了方便的功能,...

    GBK国标库回答系统

    与UTF-8等其他编码相比,GBK在某些情况下可能更适用于处理老旧系统或者特定区域的数据,因为它不需要像UTF-8那样进行字节顺序标记(BOM)。 国标库回答系统的构建通常涉及到以下几个关键技术点: 1. **GBK编码解码...

Global site tag (gtag.js) - Google Analytics