`
lee_3do
  • 浏览: 25754 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

空utf8文件占三字节的问题

    博客分类:
  • Java
阅读更多

     本来只是想试试是不是基本所有汉字在utf8中都占三字节,于是Windows下建了了一空文件,写了一汉字,代码:

FileInputStream fis = new FileInputStream("C://test.txt");
byte[] test = new byte[1024];
int length = fis.read(test);

 
     诡异的事情发生了,居然length是6!郁闷,查了一下:

 写道
“Unicode规范中有一个BOM的概念。BOM——Byte Order Mark,就是字节序标记。在这里找到一段关于BOM的说明:
引用:
在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little- Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。
UTF-8编码的文件中,BOM占三个字节。”
 
值应该是FFFE。
      第一次写博客,好吧,就这样吧...

 

分享到:
评论

相关推荐

    php自定义中文字符串截取函数substr_for_gb2312及substr_for_utf8示例

    函数同样接收三个参数,但这里需要处理的问题是UTF-8编码的中文字符可能占用多个字节,因此不能简单地像GBK那样以字节为单位进行截取。函数通过循环遍历字符串,检查每个字符的字节大小,如果是多字节的字符(ASCII...

    ie7打开页面有源文件但页面空白问题的解决方法

    当UTF-8编码的页面在IE7中解析时,如果`<title>`标签内部存在奇数个全角字符(每个全角字符在UTF-8中占3个字节),IE7可能会将其错误地解析为两个字节,导致半个汉字与`</title>`的开始标签"结合,形成乱码,从而...

    rapidjson-zh

    rapidjson库的使用手册 RapidJSON 是一个 C++ 的 JSON 解析器及生成...例如,RapidJSON 可以在分析一个 UTF-8 文件至 DOM 时,把当中的 JSON 字符串转码至 UTF-16。它也支持代理对(surrogate pair)及 "\u0000" (空字符)。

    高效的 RapidJSON 解析/生成器支持库,提供 SAX 及 DOM 操作

    高效的 C++ JSON 解析/生成器,提供 SAX 及 DOM 风格 API。...例如,RapidJSON 可以在分析一个 UTF-8 文件至 DOM 时,把当中的 JSON 字符串转码至 UTF-16。它也支持代理对(surrogate pair)及 "\u0000"(空

    json_zly.rar

    rapidjson的头文件,放入项目即可使用; ...例如,RapidJSON 可以在分析一个 UTF-8 文件至 DOM 时,把当中的 JSON 字符串转码至 UTF-16。它也支持代理对(surrogate pair)及 "\u0000"(空字符)。

    中英文字符分离程序

    在UTF-8编码中,中文字符通常由三个连续的字节组成,其中第一个字节的最高位为1。通过这些特性,我们可以判断出中文字符。 3. **分离字符**:一旦识别出中文字符,程序会将其添加到一个新的字符串中,用于生成中文...

    php字符串截取中文截取2,单字节截取模式

    函数的主要目标是处理UTF-8编码的字符串,因为UTF-8编码中,中文字符可能由一个或多个字节组成,而英文字符通常只占一个字节。 首先,函数初始化返回字符串`$restr`为空,并创建一个临时变量`$c`用于存储当前字符。...

    2020年《python程序设计》基础知识及程序设计598题OD[含参考答案].pdf

    23. `'abc 你好'.encode()` 的长度为9,UTF-8编码中,英文字符占1字节,汉字占3字节。 24. GBK编码使用2个字节表示一个汉字。 25. UTF-8编码使用3个字节表示一个汉字。 26. `x[3:] + x[:3]` 的值为`'defgabc'`,...

    .NET面试问题大全 (附答案)

    // i=14,UTF-8编码中中文占3个字节,但这里用默认的ANSI编码,中文占2个字节 - Int j = strTemp.Length; // j=11,字符串长度不考虑编码 10. `string str = null` 与 `string str = ""` 的区别: - `string str...

    关于python中readlines()函数中hint参数的使用

    - 对于二进制文件,`hint` 的取值会根据文件的编码方式(如ASCII、UTF-8等)而有所不同,需要考虑到字符编码所占的字节数。 理解 `readlines()` 函数的 `hint` 参数是非常重要的,特别是当你需要控制文件读取的...

    mysql基础介绍

    9. varchar:变长字段,长度为 0-255,在 MySQL 5.0.3 版本之后,最大长度是 65535 字节,一个 utf-8 字符占三个字节,一个 gbk 字符占两个字节。 10. text:字符串,最大长度是 65535。 11. date:采用 YYYY-MM-...

    ASP_NET面试题 _NET系列面试题_信息收集

    - `Encoding.Default.GetBytes(strTemp).Length` 返回字符串按照默认编码(通常是GBK或UTF-8)转换为字节后的字节数。 10. **空字符串与null字符串的区别**: - `string str = null`:字符串引用为空,没有分配...

    C++复习题.pdf

    9. **存储空间占用**:在这些选项中,`NULL`是一个空指针,通常占4或8个字节;`0.0`是一个浮点数,占用4或8个字节;`'0'`是字符,占1个字节;`尠尰`是两个汉字,占用4个字节(UTF-8编码下)。汉字占用的存储空间最大...

    donet面试题大全

    - `Encoding.Default.GetBytes(strTemp).Length`(i=14)表示字符串在默认编码(通常是GBK或UTF-8)下的字节数,中文字符通常占两个字节。 13. **null与空字符串的区别**: - `string str = null`未分配内存,...

    ASPnet面试试题及答案

    - `Encoding.Default.GetBytes(strTemp).Length` 返回字符串的字节数,根据默认编码(通常是GBK或UTF-8),中文字符可能占两个或更多字节。 10. **null 与 "" 的区别**: - `string str = null` 不分配内存空间,...

    VC实现中英文字定长分行处理

    英文字符通常占一个字节,而中文字符占两个字节。在处理定长分行时,需要考虑字符宽度,英文字符和中文字符的宽度可能不同。 2. **字符串处理**:VC++中,我们可以使用`std::string`或者`CString`类来操作字符串。...

    #RAPIDJSON_LIB1.1#20200314版(rapidjson.fne)-易语言

    在大部分 32/64 位机器上,每个 JSON 值只占 16 字节(除字符串外)。它预设使用一个快速的内存分配器,令分析器可以紧凑地分配内存。 RapidJSON 对 Unicode 友好。它支持 UTF-8、UTF-16、UTF-32 (大端序/小端序),...

    实验五、Python网络编程 -2022.doc

    - 数据接收到后,服务端使用`open('test.txt', 'a', encoding='UTF-8')`打开文件并追加数据,确保每个信息占一行。 - UDP服务端同样将数据写入`test1.txt`。 7. **PyQT5**: - 实验要求使用PyQT5创建图形界面的...

Global site tag (gtag.js) - Google Analytics