作者: 日光倾城。 发表于 2010-10-01 09:22 原文链接 阅读: 3 评论: 0
1. 截取GB2312中文字符串
<!--
Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/
--><!--sp-->php
//截取中文字符串
function mysubstr($str, $start, $len) {
$tmpstr = "";
$strlen = $start + $len;
for($i = 0; $i < $strlen; $i++) {
if(ord(substr($str, $i, 1)) > 0xa0) {
$tmpstr .= substr($str, $i, 2);
$i++;
} else
$tmpstr .= substr($str, $i, 1);
}
return $tmpstr;
}
?>
2. 截取utf8编码的多字节字符串
<!--
Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/
-->
<!--sp-->php
//截取utf8字符串
function utf8Substr($str, $from, $len)
{
return preg_replace('#^(?:[\x00-\x7F]|[\xC0-\xFF][\x80-\xBF]+){0,'.$from.'}'.
'((?:[\x00-\x7F]|[\xC0-\xFF][\x80-\xBF]+){0,'.$len.'}).*#s',
'$1',$str);
}
?>
3. UTF-8、GB2312都支持的汉字截取函数
<!--
Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/
--><!--sp-->php
function cut_str($string, $sublen, $start = 0, $code = 'UTF-8')
{
if($code == 'UTF-8')
{
$pa = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/";
preg_match_all($pa, $string, $t_string);
if(count($t_string[0]) - $start > $sublen) return join('', array_slice($t_string[0], $start, $sublen))."...";
return join('', array_slice($t_string[0], $start, $sublen));
}
else
{
$start = $start*2;
$sublen = $sublen*2;
$strlen = strlen($string);
$tmpstr = '';
for($i=0; $i<$strlen; $i++)
{
if($i>=$start && $i<($start+$sublen))
{
if(ord(substr($string, $i, 1))>129)
{
$tmpstr.= substr($string, $i, 2);
}
else
{
$tmpstr.= substr($string, $i, 1);
}
}
if(ord(substr($string, $i, 1))>129) $i++;
}
if(strlen($tmpstr)<$strlen ) $tmpstr.= "...";
return $tmpstr;
}
}
$str = "abcd需要截取的字符串";
echo cut_str($str, 8, 0, 'gb2312');
?>
4. BugFree 的字符截取函数
<!--
Code highlighting produced by Actipro CodeHighlighter (freeware)
http://www.CodeHighlighter.com/
--><!--sp-->php
function sysSubStr($String,$Length,$Append = false)
{
if (strlen($String) <= $Length )
{
return $String;
}
else
{
$I = 0;
while ($I < $Length)
{
$StringTMP = substr($String,$I,1);
if ( ord($StringTMP) >=224 )
{
$StringTMP = substr($String,$I,3);
$I = $I + 3;
}
elseif( ord($StringTMP) >=192 )
{
$StringTMP = substr($String,$I,2);
$I = $I + 2;
}
else
{
$I = $I + 1;
}
$StringLast[] = $StringTMP;
}
$StringLast = implode("",$StringLast);
if($Append)
{
$StringLast .= "...";
}
return $StringLast;
}
}
$String = "CodeBit.cn -- 简单、精彩、通用";
$Length = "18";
$Append = false;
echo sysSubStr($String,$Length,$Append);
?>
分享到:
相关推荐
在PHP编程中,字符串操作是常见任务之一,`substr()`函数是PHP提供的一个方便的工具,用于从字符串中截取一部分。然而,当涉及到包含中文字符的字符串时,`substr()`函数可能会引发乱码问题,这主要是由于中文字符在...
在Python中,可以使用内置的`[start:end]`切片操作来截取字符串。如果要考虑字节,我们需要使用`encode()`方法将字符串转化为字节串,因为Python的切片默认是基于字符的。例如: ```python s = "你好,世界" byte_s...
在PHP中处理中文字符串截取是一项常见的任务,尤其是在网页开发中。中文字符串通常包含UTF-8编码的字符,这与ASCII编码的英文字符串...在编写代码时,要时刻关注字符串的编码类型,以避免出现乱码或截取错误的情况。
这篇博客将深入探讨PHP如何截取字符串,并通过实例来演示其具体用法。 标题中的“php 截取字符串”主要涉及PHP中的两个核心函数:`substr()` 和 `mb_substr()`。`substr()` 是PHP中用于截取字符串的基本函数,而`mb...
总结来说,要避免 PHP 截取中文字符串时的乱码问题,关键在于正确使用 `mb_substr` 函数并指定字符串的编码,同时确保 PHP 文件和网页的编码设置一致。在不确定字符串编码的情况下,可以通过 `mb_check_encoding` ...
该自定义函数在截取字符串的同时还考虑了多字节字符的完整性,因此可以避免像`substr()`那样按照固定字节长度来截取导致乱码的情况。在截取过程中,函数逐个字符判断并相应地调整截取长度,确保不会破坏中文字符的...
在PHP中,截取字符串是一项常见的任务,尤其在处理文本数据时。本篇文章将深入探讨如何使用PHP简单地截取字符串,并提供一个具体的代码示例。这个示例中使用了多字节字符串(Multibyte String)函数,使得在处理包含...
在探讨PHP中从右向左或从左向右截取字符串的方法之前,先简单回顾一下ASP语言中的字符串截取方法。ASP语言提供了两个非常直观的函数来处理字符串截取任务:left和right。left函数用于从字符串的左侧开始截取指定长度...
在多语言环境下,截取字符串时要注意字符编码,避免截断非ASCII字符,导致乱码。 2. 边界检查: 确保起始位置和截取长度在字符串有效范围内,避免越界错误。 3. 截取策略: 对于动态内容,可能需要根据实际情况...
这主要是因为PHP中的`substr()`函数默认是按字节来截取字符串的,而UTF-8编码下的中文字符通常由多个字节组成(通常是3个字节),如果直接使用默认方式截取,就会导致中文乱码问题。 ### 解决方案 为了解决这个...
因此,在对UTF-8字符串进行操作时,我们必须考虑到这种变长特性,避免在字节边界中间截断字符串,导致乱码或解码错误。 在PHP中,可以使用`mb_strcut`函数来安全地截取UTF-8字符串。`mb_strcut`是多字节字符串函数...
总结起来,`substr()`和`mb_substr()`是PHP中用于截取字符串的函数。`substr()`适用于ASCII字符串,而`mb_substr()`更适合处理多字节编码的字符串,如UTF-8。两者都可以接受负数的`start`参数,但`length`参数的负数...
当汉字被截断时,根据编码规则他总是要把后边的其他字符拉过来一起作为汉字解释,这就是出现乱码的原因。而值为0x81到0xff与0x00组合始终都显示为“空” 根据这一特点,在substr的结果后面补上一个chr(0),就可以...
解决方法是根据值是否大于等于128来判断是否是双字节字符,以避免出现乱码的情况。但中英文混合、特殊符号等问题总是存在,现在写一个比较全面的。
这样,在截取字符串时,即使字符长度超过了一个字节,我们也能保持字符的完整性,防止出现乱码。 在给定的文件内容中,提供了一个名为utf8_substr的自定义函数,该函数能够在处理UTF-8编码的字符串时正确地进行截取...
当输入编码为UTF-8时,函数通过正则表达式来匹配字符,而当输入编码为GB2312时,则通过双字节字符的判断逻辑来正确截取字符串。这种类型的函数非常适用于多编码混用的环境,能够提高代码的可移植性和通用性。 4. ...
在处理中文文本时,PHP 的内置函数 `substr()` 并不能很好地支持中文字符的截取,尤其是在 GB2312 和 UTF-8 编码下,直接使用 `substr()` 函数可能会导致截取后的字符串出现乱码问题。为了确保中文字符被正确截取且...