`
hudeyong926
  • 浏览: 2032945 次
  • 来自: 武汉
社区版块
存档分类
最新评论

Discuz字符编码转换类2

阅读更多
<?php

/**
 *      [Discuz!] (C)2001-2099 Comsenz Inc.
 *      This is NOT a freeware, use is subject to license terms
 *
 *      $Id: class_chinese.php 6757 2010-03-25 09:01:29Z cnteacher $
 */

define('CODETABLE_DIR', DISCUZ_ROOT.'./source/include/table/');

class Chinese {

	var $table = '';
	var $iconv_enabled = false;
	var $convertbig5 = false;
	var $unicode_table = array();
	var $config  =  array (
		'SourceLang'		=> '',
		'TargetLang'		=> '',
		'GBtoUnicode_table'	=> 'gb-unicode.table',
		'BIG5toUnicode_table'	=> 'big5-unicode.table',
		'GBtoBIG5_table'   	=> 'gb-big5.table',
	);

	function Chinese($SourceLang, $TargetLang, $ForceTable = FALSE) {
		$this->config['SourceLang'] = $this->_lang($SourceLang);
		$this->config['TargetLang'] = $this->_lang($TargetLang);

		if(ICONV_ENABLE && $this->config['TargetLang'] != 'BIG5' && !$ForceTable) {
			$this->iconv_enabled = true;
		} else {
			$this->iconv_enabled = false;
			$this->OpenTable();
		}
	}

	function _lang($LangCode) {
		$LangCode = strtoupper($LangCode);

		if(substr($LangCode, 0, 2) == 'GB') {
			return 'GBK';
		} elseif(substr($LangCode, 0, 3) == 'BIG') {
			return 'BIG5';
		} elseif(substr($LangCode, 0, 3) == 'UTF') {
			return 'UTF-8';
		} elseif(substr($LangCode, 0, 3) == 'UNI') {
			return 'UNICODE';
		}
	}

	function _hex2bin($hexdata) {
		for($i=0; $i < strlen($hexdata); $i += 2) {
			$bindata .= chr(hexdec(substr($hexdata, $i, 2)));
		}
		return $bindata;
	}

	function OpenTable() {
		$this->unicode_table = array();
		if(!$this->iconv_enabled && $this->config['TargetLang'] == 'BIG5') {
			$this->config['TargetLang'] = 'GBK';
			$this->convertbig5 = TRUE;
		}
		if($this->config['SourceLang'] == 'GBK' || $this->config['TargetLang'] == 'GBK') {
			$this->table = CODETABLE_DIR.$this->config['GBtoUnicode_table'];
		} elseif($this->config['SourceLang'] == 'BIG5' || $this->config['TargetLang'] == 'BIG5') {
			$this->table = CODETABLE_DIR.$this->config['BIG5toUnicode_table'];
		}
		$fp = fopen($this->table, 'rb');
		$tabletmp = fread($fp, filesize($this->table));
		for($i = 0; $i < strlen($tabletmp); $i += 4) {
			$tmp = unpack('nkey/nvalue', substr($tabletmp, $i, 4));
			if($this->config['TargetLang'] == 'UTF-8') {
				$this->unicode_table[$tmp['key']] = '0x'.dechex($tmp['value']);
			} elseif($this->config['SourceLang'] == 'UTF-8') {
				$this->unicode_table[$tmp['value']] = '0x'.dechex($tmp['key']);
			} elseif($this->config['TargetLang'] == 'UNICODE') {
				$this->unicode_table[$tmp['key']] = dechex($tmp['value']);
			}
		}
	}

	function CHSUtoUTF8($c) {
		$str = '';
		if($c < 0x80) {
			$str .= $c;
		} elseif($c < 0x800) {
			$str .= (0xC0 | $c >> 6);
			$str .= (0x80 | $c & 0x3F);
		} elseif($c < 0x10000) {
			$str .= (0xE0 | $c >> 12);
			$str .= (0x80 | $c >> 6 & 0x3F);
			$str .=( 0x80 | $c & 0x3F);
		} elseif($c < 0x200000) {
			$str .= (0xF0 | $c >> 18);
			$str .= (0x80 | $c >> 12 & 0x3F);
			$str .= (0x80 | $c >> 6 & 0x3F);
			$str .= (0x80 | $c & 0x3F);
		}
		return $str;
	}

	function GB2312toBIG5($c) {
		$f = fopen(CODETABLE_DIR.$this->config['GBtoBIG5_table'], 'r');
		$max=strlen($c)-1;
		for($i = 0;$i < $max;$i++){
			$h=ord($c[$i]);
			if($h>=160) {
				$l=ord($c[$i+1]);
				if($h==161 && $l==64){
					$gb="  ";
				} else{
					fseek($f,($h-160)*510+($l-1)*2);
					$gb=fread($f,2);
				}
				$c[$i]=$gb[0];
				$c[$i+1]=$gb[1];
				$i++;
			}
		}
		$result = $c;
		return $result;
	}

	function Convert($SourceText) {
		if($this->config['SourceLang'] == $this->config['TargetLang']) {
			return $SourceText;
		} elseif($this->iconv_enabled) {
			if($this->config['TargetLang'] <> 'UNICODE') {
				return iconv($this->config['SourceLang'], $this->config['TargetLang'], $SourceText);
			} else {
				$return = '';
				while($SourceText != '') {
					if(ord(substr($SourceText, 0, 1)) > 127) {
						$return .= "&#x".dechex($this->Utf8_Unicode(iconv($this->config['SourceLang'],"UTF-8", substr($SourceText, 0, 2)))).";";
						$SourceText = substr($SourceText, 2, strlen($SourceText));
					} else {
						$return .= substr($SourceText, 0, 1);
						$SourceText = substr($SourceText, 1, strlen($SourceText));
					}
				}
				return $return;
			}

		} elseif($this->config['TargetLang'] == 'UNICODE') {
			$utf = '';
			while($SourceText != '') {
				if(ord(substr($SourceText, 0, 1)) > 127) {
					if($this->config['SourceLang'] == 'GBK') {
						$utf .= '&#x'.$this->unicode_table[hexdec(bin2hex(substr($SourceText, 0, 2))) - 0x8080].';';
					} elseif($this->config['SourceLang'] == 'BIG5') {
						$utf .= '&#x'.$this->unicode_table[hexdec(bin2hex(substr($SourceText, 0, 2)))].';';
					}
					$SourceText = substr($SourceText, 2, strlen($SourceText));
				} else {
					$utf .= substr($SourceText, 0, 1);
					$SourceText = substr($SourceText, 1, strlen($SourceText));
				}
			}
			return $utf;
		} else {
			$ret = '';
			if($this->config['SourceLang'] == 'UTF-8') {
				$out = '';
				$len = strlen($SourceText);
				$i = 0;
				while($i < $len) {
					$c = ord(substr($SourceText, $i++, 1));
					switch($c >> 4) {
						case 0: case 1: case 2: case 3: case 4: case 5: case 6: case 7:
							$out .= substr($SourceText, $i - 1, 1);
							break;
						case 12: case 13:
							$char2 = ord(substr($SourceText, $i++, 1));
							$char3 = $this->unicode_table[(($c & 0x1F) << 6) | ($char2 & 0x3F)];
							if($this->config['TargetLang'] == 'GBK') {
								$out .= $this->_hex2bin(dechex($char3 + 0x8080));
							} elseif($this->config['TargetLang'] == 'BIG5') {
								$out .= $this->_hex2bin($char3);
							}
							break;
						case 14:
							$char2 = ord(substr($SourceText, $i++, 1));
							$char3 = ord(substr($SourceText, $i++, 1));
							$char4 = $this->unicode_table[(($c & 0x0F) << 12) | (($char2 & 0x3F) << 6) | (($char3 & 0x3F) << 0)];
							if($this->config['TargetLang'] == 'GBK') {
								$out .= $this->_hex2bin(dechex($char4 + 0x8080));
							} elseif($this->config['TargetLang'] == 'BIG5') {
								$out .= $this->_hex2bin($char4);
							}
							break;
					}
				}
				return !$this->convertbig5 ? $out : $this->GB2312toBIG5($out);
			} else {
				while($SourceText != '') {
					if(ord(substr($SourceText, 0, 1)) > 127) {
						if($this->config['SourceLang'] == 'BIG5') {
							$utf8 = $this->CHSUtoUTF8(hexdec($this->unicode_table[hexdec(bin2hex(substr($SourceText, 0, 2)))]));
						} elseif($this->config['SourceLang'] == 'GBK') {
							$utf8=$this->CHSUtoUTF8(hexdec($this->unicode_table[hexdec(bin2hex(substr($SourceText, 0, 2))) - 0x8080]));
						}
						for($i = 0; $i < strlen($utf8); $i += 3) {
							$ret .= chr(substr($utf8, $i, 3));
						}
						$SourceText = substr($SourceText, 2, strlen($SourceText));
					} else {
						$ret .= substr($SourceText, 0, 1);
						$SourceText = substr($SourceText, 1, strlen($SourceText));
					}
				}
				$SourceText = '';
				return $ret;
			}
		}
	}

	function Utf8_Unicode($char) {
		switch(strlen($char)) {
			case 1:
				return ord($char);
			case 2:
				$n = (ord($char[0]) & 0x3f) << 6;
				$n += ord($char[1]) & 0x3f;
				return $n;
			case 3:
				$n = (ord($char[0]) & 0x1f) << 12;
				$n += (ord($char[1]) & 0x3f) << 6;
				$n += ord($char[2]) & 0x3f;
				return $n;
			case 4:
				$n = (ord($char[0]) & 0x0f) << 18;
				$n += (ord($char[1]) & 0x3f) << 12;
				$n += (ord($char[2]) & 0x3f) << 6;
				$n += ord($char[3]) & 0x3f;
				return $n;
		}
	}

}

?>

转化类用的数据库 source/include/table   gb-unicode.table

            $c = new Chinese('utf8', CHARSET, TRUE);
            $data = $c->Convert($data);

分享到:
评论

相关推荐

    Discuz 提供的编码转换工具

    【标题】"Discuz 提供的编码转换工具"涉及到的是网站论坛系统Discuz!中的一种常见操作,即字符编码的转换。在互联网发展的初期,不同的字符编码标准(如GBK和UTF-8)导致了跨平台、跨语言交流时的数据不兼容问题。...

    Discuz! X 官方 GBK/UTF8编码转换工具

    官方的GBK/UTF8编码转换工具是Discuz! 社区论坛系统的重要补充,它的主要功能包括: 1. **数据转换**:该工具能够将论坛现有的GBK编码数据转换为UTF8编码,或反之,确保转换后所有帖子、用户资料、板块设置等信息的...

    文本文件编码转换工具 gbk utf8 gb2312

    2)建表时候一切默认;至于导入*.SQL没试应该是不用动什么&lt;!-----MySQL 字符集: UTF-8 Unicode (utf8) -----&gt; 3)在 php 文件头部加入 ; charset=utf-8"&gt;&lt;/HEAD&gt; "说明此文件编码为utf8" 4)在 mysql_select_db("表名...

    Discuz模板转码专用工具

    转换过程中,工具会保留原始文件的结构和内容,只对字符编码进行替换,确保转换后的文件仍能正常运行于Discuz系统中。 在实际操作中,我们可以通过"51EC模板转码专用工具1.0.exe"这个执行文件来启动转码过程。运行...

    Discuz_X3.1_SC_GBK源码+utf-8转码工具

    UTF-8是一种国际通用的多字节字符编码,它可以表示Unicode字符集中的所有字符,且在互联网上被广泛支持。当需要将GBK编码的Discuz! 源码与其它UTF-8环境兼容,或者为了适应更广泛的国际用户时,就需要使用这类工具。...

    游戏资源下载论坛discuz模板GBK编码+支持升级最新UTF8.txt

    在探讨Discuz模板的GBK编码及其升级到UTF8的过程中,我们首先需要了解这两种字符编码的基本概念。 **GBK编码**是中国大陆地区广泛使用的一种汉字编码标准,它兼容GB2312编码,并包含了更多的汉字以及符号。GBK编码...

    完美转换MySQL的字符集 解决查看utf8源文件中的乱码问题

    所以对于MySQL4.0及其以下的版本,他们的字符集都是Latin1的,所以有时候需要对mysql的字符集进行一下转换,MySQL版本的升级、降级,特别是升级MySQL的版本,为了不让程序继续沿用Latin1字符集之后对以后Discuz!...

    DiscuzX3.4UTF8转GBK后乱码解决方案

    X3.4 是其一个稳定的版本,支持多种功能和优化,但有时在处理字符编码时可能会遇到问题。本文将详细介绍如何解决"DiscuzX3.4 UTF8转GBK后乱码"的问题,以及提供的资源如何使用。 首先,我们需要理解UTF-8和GBK两种...

    GBK\UTF8互转格式插件 for discuz 7.0.rar

    是一款广泛应用的开源社区论坛软件,而GBK和UTF-8是两种常见的字符编码方式。 GBK编码,全称“汉字内码扩展规范”,是中国大陆广泛使用的多字节字符集,它包含了GB2312标准的所有字符,并增加了许多其他汉字和符号...

    discuz utf-8

    4. **编码转换**:由于历史原因,不同的中文地区可能使用不同的字符编码,如 BIG5(繁体中文)和 GBK(简体中文)。转换编码是一项技术挑战,因为它涉及到字符映射和防止数据丢失的问题。在升级论坛系统时,确保数据...

    基于PHP的UCenter Home 简体GB2312与UTF-8.zip

    在Web开发领域,PHP是一种广泛使用的服务器端脚本语言,尤其在构建社区类网站时,UCenter Home(UCHome)是一个常用...总的来说,理解并掌握字符编码转换对于PHP开发者来说是必备技能,特别是在处理多语言社区系统时。

    GBK与UTF8编码批量转码工具

    这款工具能够帮助用户快速有效地将大量文件从GBK编码转换为UTF8编码,或者反之,尤其对于像Discuz!这样的论坛模板调整来说,这是一个非常方便的解决方案。 GBK编码是中国大陆广泛使用的汉字编码标准,它是GB2312的...

    Discuz! X2.5仿化龙巷gb2312编码

    GBK编码是GB2312编码的扩展,包含了更多的汉字和符号,能够支持更广泛的中文字符集,使得在论坛中使用各种中文词汇和特殊字符时不会出现乱码问题。这对于以中文为主要交流语言的社区来说至关重要,确保了用户在浏览...

    discuz加密解密函数 java版

    `Base64.java`文件可能包含了一个自定义的Base64编码和解码实现,这对于处理Discuz中可能涉及的编码转换非常有用。 接着,`Authcode3.java`可能是实现Discuz论坛的特定加密算法。"Authcode"是Discuz使用的一种加密...

    Discuz! 应用中心客户端 For X2 SC_UTF8

    的字符编码方式,全称为Simplified Chinese UTF-8,即简体中文UTF-8编码。这种编码方式能够支持更多的汉字字符,避免了在处理中文内容时可能出现的乱码问题,提升了用户体验。 Discuz! 应用中心客户端的安装对于...

    Discuz X插件 工单管理系统 gbk utf8.zip

    2. **编码转换**:在处理GBK编码的工单时,系统可能需要将其转换为UTF8,以便与其他系统或数据库进行交互。 3. **存储兼容性**:数据库设计应考虑到两种编码,确保数据存储的稳定性和一致性。 4. **接口兼容**:如果...

    模板转码专用工具

    "模板转码专用工具"就是这样一个专门针对编码转换的实用程序,它为用户提供了一种便捷的方式,将HTML(超文本标记语言)和XML(可扩展标记语言)文档从一种字符编码格式转换到另一种。这个工具对于那些处理多种编码...

    三级置顶插件 for Discuz! 7.2 GBK.rar

    如果论坛本身是UTF-8编码,那么需要考虑插件是否支持编码转换。 6. **安全与更新**:任何插件都有潜在的安全风险,定期检查并更新插件到最新版本是必要的,以防止安全漏洞被利用。同时,保持与Discuz!核心版本的...

    滑动返回顶部插件 for Discuz! ALL GBK UTF8 BIG5.rar

    为了确保插件在各种编码环境下正常工作,开发者可能需要对字符串进行适当的编码转换处理,以避免乱码问题。 安装此类插件通常涉及以下几个步骤: 1. 下载`滑动返回顶部插件for Discuz! ALL`的rar压缩包。 2. 解压...

    PHP实例开发源码—UCenter Home 简体GBK与utf8.zip

    《PHP实例开发源码—UCenter Home 简体GBK与utf8.zip》是一个包含PHP编程语言实际应用的源码包,主要涉及UCenter Home这一社区软件的编码转换问题。UCenter Home是一款由Comsenz公司开发的社交网络平台,它能够与...

Global site tag (gtag.js) - Google Analytics