`
wanghongwei
  • 浏览: 111842 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

UTF-8总结

    博客分类:
  • PHP
阅读更多
一.HTML页面转UTF-8编码问题
1.在<head>后,<title>前加入一行:
<meta http-equiv='Content-Type' content='text/html; charset=utf-8' />
顺序不能错,一定要在<title>标签前加入,否则如果<title>与</title>之间有中文字符的话,
显示的标题有可能是乱码!
2.html文件编码问题:
 
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,
如果是ANSI,需要将编码改成:UTF-8。
3.HTML文件头BOM问题:
将文件从其他的编码转换成UTF-8编码时,有时候会在文件的最开始加上一个BOM标签,
在个BOM标签可能会导致浏览器在显示中文的时候出现乱码。
删除这个BOM标签的方法:
1.可以用Dreamweaver打开文件,并重新保存,即可以去除BOM标签!
2.可以用EditPlus打开文件,并在菜单“首选项”->“文件”->"UTF-8标识",设置为:“总是删除签名”,
  然后保存文件,即可以去除BOM标签!
4.WEB服务器UTF-8编码问题:
如果你按以上所列的步骤做了,还是有中文乱码问题,
请检查你的所使用的WEB服务器的编码问题
如果你使用的是Apache,请将配置文件里的:charset 设成:utf-8(这里仅列出方法,具体格式请参考apache的配置文件)
如果你使用的是Nginx,请将nginx.conf里的:charset  设成 utf-8,
具体找到 "charset  gb2312;"或者类似的语句,改成:“charset  utf-8;”。
--------------------------------------------------------------------------------

二.PHP页面转UTF-8编码问题
1.在代码开始出加入一行:
header("Content-Type: text/html;charset=utf-8");

2.PHP文件编码问题
 
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,
如果是ANSI,需要将编码改成:UTF-8。
3.PHP文件头BOM问题:
PHP文件一定不可以有BOM标签
否则,会出现session不能使用的情况,并有类似的提示:
Warning: session_start() [function.session-start]: Cannot send session cache limiter - headers already sent
这是因为,在执行session_start() 的时候,整个页面不能有输出,但是当由于前PHP页面存在BOM标签,
PHP把这个BOM标签当成是输出了,所以就出错了!
所以PHP页面一定要删除BOM标签
删除这个BOM标签的方法:
1.可以用Dreamweaver打开文件,并重新保存,即可以去除BOM标签!
2.可以用EditPlus打开文件,并在菜单“首选项”->“文件”->"UTF-8标识",设置为:“总是删除签名”,
  然后保存文件,即可以去除BOM标签!
4.PHP以附件形式保存文件的时候,UTF-8编码问题:
PHP以附件形式保存文件,文件名必须是GB2312编码,
否则,如果文件名中有中文的话,将是显示乱码:
如果你的PHP本身是UTF-8编码格式的文件,
需要将文件名变量由UTF-8转成GB2312:
iconv("UTF-8", "GB2312", "$filename");

5.截断显示文章标题时,出现乱码或者“?”问号的问题:
一般文章标题很长的时候,会显示一部分标题,会对文章标题进行截断,
由于一个UTF-8编码格式的中文字符会占用3个字符宽度,
截取标题的时候,有时会只截取到一个中文字符的1个字符或2字符宽度,
没截取完整,将出现乱码或“?”问号的情况,
用下面的函数截取标题,就不会有问题:
function get_brief_str($str, $max_length)
{
  echo strlen($str) ."<br>";
  if(strlen($str) > $max_length)
  {
    $check_num = 0;
    for($i=0; $i < $max_length; $i++)
    {
      if (ord($str[$i]) > 128)
      $check_num++;
    }
        
    if($check_num % 3 == 0)
    $str = substr($str, 0, $max_length)."...";
    else if($check_num % 3 == 1)
    $str = substr($str, 0, $max_length + 2)."...";
        else if($check_num % 3 == 2)
    $str = substr($str, 0, $max_length + 1)."...";
  }
  return $str;  
}


--------------------------------------------------------------------------------

三.MYSQL数据库使用UTF-8编码的问题
 
1.用phpmyadmin创建数据库和数据表
创建数据库的时候,请将“整理”设置为:“utf8_general_ci”
或执行语句:
CREATE DATABASE `dbname` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

创建数据表的时候:如果是该字段是存放中文的话,则需要将“整理”设置为:“utf8_general_ci”,
如果该字段是存放英文或数字的话,默认就可以了。
相应的SQL语句,例如:
CREATE TABLE `test` (
`id` INT NOT NULL ,
`name` VARCHAR( 10 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
PRIMARY KEY ( `id` )
) ENGINE = MYISAM ;

2.用PHP读写数据库
在连接数据库之后:
[hide]$connection = mysql_connect($host_name, $host_user, $host_pass);
加入两行:

mysql_query("set character set 'utf8'");//读库
mysql_query("set names 'utf8'");//写库

就可以正常的读写MYSQL数据库了。


--------------------------------------------------------------------------------

四.JS相关的UTF-8编码问题
1.JS读Cookie的中文乱码问题
 
PHP写cookie的时候需要将中文字符进行escape编码,
否则JS读到cookie中的中文字符将是乱码。
但php本身没有escape函数,我们新写一个escape函数:
function escape($str)    
{
  preg_match_all("/[\x80-\xff].|[\x01-\x7f]+/",$str,$r);    
  $ar = $r[0];    
  foreach($ar as $k=>$v)
  {
    if(ord($v[0]) < 128)    
      $ar[$k] = rawurlencode($v);    
    else    
      $ar[$k] = "%u".bin2hex(iconv("UTF-8","UCS-2",$v));    
  }    
  return join("",$ar);    
}

JS读cookie的时候,用unescape解码,
然后就解决cookie中有中文乱码的问题了。

2.外部JS文件UTF-8编码问题
当一个HTML页面或则PHP页面包含一个外部的JS文件时,
如果HTML页面或则PHP页面是UTF-8编码格式的文件,
外部的JS文件同样要转成UTF-8的文件,
否则将出现,没有包含不成功,调用函数时没有反应的情况。
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,
如果是ANSI,需要将编码改成:UTF-8。
--------------------------------------------------------------------------------

五.FLASH相关的UTF-8编码问题
 
FLASH内部对所有字符串,默认都是以UTF-8处理
1.FLASH读文普通本文件(txt,html)
要将文本文件的编码存为UTF-8
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,
如果是ANSI,需要将编码改成:UTF-8。
2.FLASH读XML文件
要将XML文件的编码存为UTF-8
点击编辑器的菜单:“文件”->“另存为”,可以看到当前文件的编码,确保文件编码为:UTF-8,
如果是ANSI,需要将编码改成:UTF-8。
在XML第1行写:
<?xml version="1.0" encoding="utf-8"?>
3.FLASH读PHP返回数据
如果PHP编码本身是UTF-8的,直接echo就可以了
如果PHP编码本身是GB2312的,可以将PHP转存成UTF-8编码格式的文件,直接echo就可以了
如果PHP编码本身是GB2312的,而且不允许改文件的编码格式,
用下面的语句将字符串转换成UTF-8的编码格式
$new_str = iconv("GB2312", "UTF-8", "$str");
再echo就可以了
4.FLASH读数据库(MYSQL)的数据
FLASH要通过PHP读取数据库中的数据
PHP本身的编码不重要,关键是如果数据库的编码是GB2312的话,
需要用下面的语句将字符串转换成UTF-8的编码格式
$new_str = iconv("GB2312", "UTF-8", "$str");

5.FLASH通过PHP写数据
一句话,FLASH传过来的字符串是UTF-8格式的,
要转换成相应的编码格式,再操作(写文件、写数据库、直接显示等等)
还是用iconv函数转换
6.FLASH使用本地编码(理论上不推荐使用)
如果想让FLASH不使用UTF-8编码,而是使用本地编码
对于中国大陆地区而言,本地编码是GB2312或GBK
AS程序内,可以添加以下代码:
System.useCodepage = true;
那么FLASH内所有字符都是使用GB2312的编码了
所有导入到FLASH或者从FLASH导出的数据,都应该做相应的编码转换
因为使用本地编码,会造成使用繁体中文地区的用户产生乱码,所以不推荐使用
--转自LAMP兄弟连,作者:高洛峰
分享到:
评论

相关推荐

    字符编码转换类,支持 ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom互相转换

    UTF-8的特殊之处在于它包含一个字节顺序标记(BOM),即UTF-8+BOM,但大多数情况下,UTF-8无BOM更常见。 在PHP中,进行字符编码转换可以使用内置函数,如`mb_convert_encoding()`,这个函数可以将字符串从一种编码...

    utf-8 ansi 字符互转 工具

    总结来说,理解和掌握UTF-8与ANSI字符编码的差异,以及如何进行转换,对于解决跨平台、多语言环境下的文本处理问题至关重要。在日常工作中,我们可以利用各种工具和编程手段,灵活应对不同编码格式带来的挑战。在...

    utf-8 互转 gb2312 转码

    总结来说,UTF-8和GB2312是两种不同的字符编码标准,它们在处理中文字符时各有优缺点。理解并熟练掌握这两种编码的转换,对于处理多语言环境下的文本数据至关重要。在实际应用中,我们应根据需求选择合适的编码,并...

    UNICODE与UTF-8转换

    总结来说,UNICODE和UTF-8在字符编码领域各有其特点和优势,理解它们之间的关系和转换方法,对于进行跨语言的软件开发和数据处理至关重要。通过有效的转换,我们可以确保不同编码系统之间的文本数据能够正确无误地...

    UTF-8 Unicode GBK GB2312 编码之间的区别和联系

    ### UTF-8、Unicode、GBK、GB2312 编码之间的区别和联系 #### 一、引言 在互联网技术中,字符编码是非常重要的基础概念之一。字符编码不仅决定了文本在网络上的传输效率,还直接影响到了不同国家和地区用户访问...

    快速转码(UTF-8转ASCII)

    总结来说,"快速转码(UTF-8转ASCII)"是一个常见的编程需求,尤其在Java Web开发中。通过理解和使用Java的字符编码API,我们可以轻松实现这一功能。然而,由于ASCII的限制,这种转换可能导致信息丢失,因此在进行...

    java jsp解决utf-8乱码.zip

    在Java JSP开发中,遇到UTF-8编码导致的乱码问题是一个常见的困扰。这个问题主要涉及到字符编码的统一和正确处理。UTF-8是一种广泛使用的Unicode字符编码方案,它可以支持几乎所有的字符集,包括中文、日文和韩文。...

    java 编码 UTF-8、ISO-8859-1、GBK

    例如,如果数据库是UTF-8,JSP是GBK,可以使用 `new String(rs.getBytes(1),"UTF-8")` 将数据库中的UTF-8字节流转换为GBK字符串。反之,如果JSP是UTF-8,数据库是GBK,需要先将GBK字符串转换为字节流,然后再次转换...

    GBK与UTF-8转码(C++)

    ### GBK与UTF-8转码(C++) #### 知识点概述 本文将详细介绍如何在Microsoft Foundation Classes (MFC)环境下实现GBK与UTF-8之间的编码转换。该技术适用于那些需要处理不同字符集数据的应用程序开发场景,特别是在...

    多字节与UTF-8、Unicode之间的转换

    ### 多字节与UTF-8、Unicode之间的转换 在计算机科学领域,字符编码是将文字映射到二进制数据的一种方式。不同的字符编码方案适用于不同的应用场景。本篇文章主要探讨的是多字节(MBCS)编码与UTF-8、Unicode编码...

    SAS EG导入UTF-8编码的文本数据文件时的乱码问题解决方法

    总结来说,导入UTF-8编码文本数据文件至SAS EG出现乱码时,应该首先确认文件的编码类型,并在导入时进行正确设置。如果直接操作仍有问题,则可利用第三方工具辅助处理特殊字符,并在SAS EG导入向导中正确设置。通过...

    UTF-8中文字符表

    ### UTF-8中文字符表详解 #### 一、前言 在数字编码的世界里,UTF-8(Unicode Transformation Format-8 bits)作为一种重要的编码方式,被广泛应用于网页、数据库及各种文本处理系统中。UTF-8是Unicode的一种变长...

    java 读取服务器上的某个文件,并解决UTF-8 BOM文件的问号问题

    在Java编程中,读取...总结来说,Java中读取服务器上的UTF-8 BOM文件,需要正确设置字符编码,检测并处理BOM,同时注意异常处理和资源释放。通过掌握这些知识点,开发者可以编写出稳定、高效的代码来处理这类问题。

    ASCII Unicode 和UTF-8区别

    ASCII、Unicode和UTF-8是字符编码的几种不同标准,它们在历史发展中各司其职,具有各自的特点和用途。了解这三者之间的区别和联系,对于处理多语言文本数据尤为重要。 首先,让我们回顾一下ASCII编码标准。ASCII...

    Java 程序转码(UTF-8)

    ### Java程序转码(UTF-8):详细解析与实现 #### 一、引言 在处理文本数据时,字符编码是一项重要的技术基础。不同系统、不同语言环境下的字符编码可能不一致,这就需要进行字符编码转换以确保数据正确显示和处理...

    delphi操作utf-8转码HTTPEncode

    总结,要在Delphi中完成“UTF-8转码HTTPEncode”的操作,你需要先将UTF-8字符串转换为Unicode字符串,然后使用`UrlEncode`函数进行HTTPEncode编码。这个过程对于处理HTTP请求中的参数或URL路径非常重要,可以避免...

    ewebeditor在线编辑器官方2.8修改utf-8

    总结,这个“ewebeditor在线编辑器官方2.8修改utf-8”版本是一个经过优化以适应UTF-8编码的网页文本编辑工具,适合那些需要处理多语言内容的ASP网站。其修改后的稳定性和兼容性得到了验证,对于开发者来说是一个可靠...

    Unicode字符的UTF-8、UTF-16、UTF-32编码方式[总结].pdf

    Unicode 字符的 UTF-8、UTF-16、UTF-32 编码方式 Unicode 字符集是计算机上使用的一种字符编码,它为每种语言中的每个字符设定了统一并且唯一的二进制代码,以满足跨语言、跨平台进行文本转换、处理的要求。Unicode...

    ANSI文件转UTF-8

    ### ANSI 文件转换为 UTF-8 的过程解析 #### 一、背景介绍 在软件开发过程中,经常需要处理不同编码格式的文件。常见的字符编码有ANSI(也称为Windows Code Page)、UTF-8等。其中ANSI是根据操作系统所在区域设置而...

    设置myeclipse新建jsp文件默认编码为UTF-8

    ### 设置MyEclipse新建JSP文件默认编码为UTF-8 #### 一、引言 在Web开发过程中,中文字符的正确显示对于用户体验至关重要。在使用MyEclipse进行Java Web开发时,可能会遇到中文乱码问题,这主要是由于文件编码设置...

Global site tag (gtag.js) - Google Analytics