substr截取中文字符出现乱码的解决方法二则

lvren007

浏览: 54886 次
性别:

最近访客更多访客>>

meixianping

wangjilei0021

woodding2008

wd1282988143

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

使用fetch_feed()获取rss数据时，利用substr()函数截取200字节作为内容摘要。但是，substr函数在截取字符时是按字节来截取的，中文字符在GB2312编码时为2个字节，utf-8编码时为3个字节，所以截取指定长度的字符串时如果截断了汉字，那么返回的结果显示出来便会出现乱码。iqr 淘宝 iqr 淘宝商城 iqr 淘宝女装

查了一下，网上大多只提到了使用PHP扩展库方法，即利用mb_substr()代替substr()函数。

方法定义：string mb_substr ( string str, int start [, int length [, string encoding]] )

扩展库位置：php.ini中;extension=php_mbstring.dll，去掉前面的分号。

注意：在使用mb_substr()最后要加入多一个参数，以设定字符串的编码，例如，

1
2
3

使用mb_substr()函数可保证不会出现乱码，但缺点是长度统计变成了字符数统计，而不是按字节数统计。用于显示时，同样长度的中文结果和英文结果会出现较大的显示长度的差别。

另外，中文字符常用编码有utf-8和GB2312，一般情况下mb_substr()不能通用于上述两种编码。

枫芸志给我们提供了另外一个方法，转述如下：

这里提供一个函数可较好地解决substr遇到中文字符的问题。此函数由UCHome 1.5中的getstr()函数修改而来。

中文字符按2个长度单位来计算，使得中英文混用环境下字符串截取结果最后的显示长度接近；舍弃最后一个不完整字符，保证不会出现显示上的乱码；且兼容了中文字符常用的utf-8编码和GB2312编码，有很好的通用性。

function getstr($string, $length, $encoding = ‘utf-8′) {
$string = trim($string);

if($length && strlen($string) > $length) {
//截断字符
$wordscut = ”;
if(strtolower($encoding) == ‘utf-8′) {
//utf8编码
$n = 0;
$tn = 0;
$noc = 0;
while ($n < strlen($string)) {
$t = ord($string[$n]);
if($t == 9 || $t == 10 || (32 $tn = 1;
$n++;
$noc++;
} elseif(194 $tn = 2;
$n += 2;
$noc += 2;
} elseif(224 $tn = 3;
$n += 3;
$noc += 2;
} elseif(240 $tn = 4;
$n += 4;
$noc += 2;
} elseif(248 = $length) {
break;
}
}
if ($noc > $length) {
$n -= $tn;
}
$wordscut = substr($string, 0, $n);
} else {
for($i = 0; $i < $length – 1; $i++) { if(ord($string[$i]) > 127) {
$wordscut .= $string[$i].$string[$i + 1];
$i++;
} else {
$wordscut .= $string[$i];
}
}
}
$string = $wordscut;
}
return trim($string);
}

// 示例
echo getstr(“0一二三四五六七”,5).’
‘; // 0一二

分享到：