`
oywl2008
  • 浏览: 1051418 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Java 按字节大小分割字符串,防止将中文切掉

 
阅读更多
import java.io.UnsupportedEncodingException;

public class StringUtil {

	private static int spiltSize = 256;
	private static String spiltString(String resource, int index) {
		if (resource == null)
			return "String is null";
		byte[] strByte = resource.getBytes();
		int byteLength = strByte.length;
		if (index <= 0 || index > byteLength)
			return "out of index for this string";
		int strLength = resource.length();
		String[] tmpByte = new String[strLength];
		for (int i = 0; i < strLength; i++) {
			tmpByte[i] = resource.substring(i, i + 1);
		}
		int myIndex = getIndex(tmpByte, strLength, index);
		byte[] resultByte = getBytesByIndex(tmpByte, myIndex);
		if (resultByte == null)
			return "error";
		String result = new String(resultByte);
		return result;
	}

	private static int getIndex(String[] tmpByte, int length, int index) {
		int byteTotleMin = 0;
		int myIndex = -1;
		for (int i = 0; i < length; i++) {
			byteTotleMin = byteTotleMin + tmpByte[i].getBytes().length;
			if (byteTotleMin >= index) {
				myIndex = i;
				break;
			}
		}
		return myIndex;
	}

	private static byte[] getBytesByIndex(String[] tmpByte, int index) {
		if (index > tmpByte.length)
			return null;
		index++;
		byte[][] tmp = new byte[index][];
		int count = 0;
		for (int i = 0; i < index; i++) {
			tmp[i] = tmpByte[i].getBytes();
			count = count + tmp[i].length;
		}
		byte[] result = new byte[count];
		int one = tmp.length;
		int indexTmp = 0;
		for (int i = 0; i < one; i++) {
			int two = tmp[i].length;
			for (int j = 0; j < two; j++) {
				result[indexTmp] = tmp[i][j];
				indexTmp++;
			}
		}
		return result;
	}

	private static String[] getSpiltMessage(String messageContent)
			throws UnsupportedEncodingException {
		String message = messageContent;
		int byteLen = message.getBytes("UTF-8").length;
		int len = byteLen / spiltSize + 1;
		String[] strArr = new String[len];
		if (byteLen > spiltSize) {
			for (int i = 0; i < len; i++) {
				StringBuffer strTemp = new StringBuffer();
				for (int j = 0; j < i; j++) {
					if (!"null".equals(strArr[j].toString())) {
						strTemp.append(strArr[j]);
					}
				}
				int start = message.indexOf(strTemp.toString());
				if (start == -1) {
					start = 0;
				}
				// 对null情况做特殊处理
				int start2 = strTemp.toString().length();
				if (start2 == 4) {
					start2 = 0;
				}
				String subTemp = "";
				if (start + start2 == 0) {
					subTemp = message;
				} else {
					// 找到切割点
					subTemp = message.substring(start + start2);
				}
				if (subTemp.getBytes().length > spiltSize) {
					strArr[i] = spiltString(subTemp, spiltSize);
					// 再次检测一下字节大小,保证要小于256字节
					if (strArr[i].getBytes("UTF-8").length > spiltSize) {
						strArr[i] = strArr[i].substring(0,
								strArr[i].length() - 9);
						}
				}else{
					strArr[i] = subTemp;
				}
			}

		} else {
			strArr[0] = message;
		}
		// 补全256位
		for (int k = 0; k < len; k++) {
			if (null != strArr[k]
					&& strArr[k].getBytes("UTF-8").length < spiltSize) {
				StringBuffer strnull = new StringBuffer();
				for (int y = 0; y < spiltSize
						- strArr[k].getBytes("UTF-8").length; y++) {
					strnull.append(" ");
				}
				strArr[k] = strArr[k] + strnull.toString();
				// System.out.print(strArr[k].getBytes("UTF-8").length);
			}
			// System.out.println(strArr[k]);
			}
		return strArr;
	}

	public static void main(String[] args) throws UnsupportedEncodingException {
		// String message =
		// "311111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111122";
		// String message =
		// "311111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111443111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111114455";
		String message = "11邮送欺诈邮送欺诈邮送欺诈邮件近期发现一些不法分子假冒公司管理员的名义向我司不少员工发送欺诈邮件送欺诈邮件近期发现一些不法分子假冒公司管理员的名义向我司不少员工444邮件件333件33件11邮送欺诈邮送欺诈邮送欺诈邮件近期发现一些不法分子假冒公司管理员的名义向我司不少员工发送欺诈邮件送欺诈邮件近期发现一些不法分子假冒公司管理员的名义向我司不少员工444邮件件333件33件";
		String[] strArr = getSpiltMessage(message);
		for (int k = 0; k < strArr.length; k++) {
			System.out.print(strArr[k].getBytes("UTF-8").length);
			System.out.println(strArr[k]);
		}
	}

}

 

分享到:
评论

相关推荐

    关于java按字节截取带有汉字的字符串的解法

    在Java编程语言中,处理带有汉字的字符串时,由于汉字占据多个字节,按照字节进行截取可能会导致汉字被不完整地分割,从而产生乱码。为了解决这个问题,我们需要理解Unicode编码以及如何在Java中正确处理多字节字符...

    java 字符串转16进制 16进制转字符串 将两个ASCII字符合成一个字节;

    java 字符串转16进制 16进制转字符串 将两个ASCII字符合成一个字节; java 字符串转16进制 16进制转字符串 将两个ASCII字符合成一个字节; java 字符串转16进制 16进制转字符串 将两个ASCII字符合成一个字节; java ...

    C# 按照字节长度截取字符串

    本篇将详细介绍如何在C#中按照字节长度截取字符串,并结合正则表达式进行操作。 首先,理解字节长度的重要性。在ASCII编码中,一个字符占据一个字节,但在Unicode(如UTF-8或UTF-16)编码中,一个字符可能占用多个...

    plsql分割字符串

    通过对`FUNCTION_SF_SPLIT_STRING`的详细分析,我们可以看到,在PL/SQL中实现字符串分割不仅需要理解基本的字符串操作函数,还需要具备良好的逻辑思维和控制结构设计能力。掌握这种方法不仅可以提高数据库应用程序的...

    JAVA如何按字节截取字符串

    JAVA按照字节截取字符串是Java编程语言中的一项重要技术,通过本文,我们将详细介绍如何使用Java语言按照字节截取字符串。 首先,我们需要了解什么是字节截取。在计算机科学中,字节是信息技术中使用的基本单位,...

    java按字节截取带有汉字的字符串的解法(推荐)

    在Java编程语言中,处理包含汉字的字符串时,由于汉字在不同编码格式下占用的字节数不同,按字节截取字符串会面临特殊挑战。本文将深入探讨如何正确地按字节截取带有汉字的字符串,以确保不出现半字符或者乱码的情况...

    将字符串按字节分割成等长字符

    除了将记录导出到word方法外(word要把“允许西文在单词中间换行"勾上),笔者写了一个自定义函数,可将字符按用户指定的字节长度参数分割成等长字符,调用时用test(字符串,字节长度)即可,比如字符为”CSDN是个...

    字符串截取(按字节)

    本文将深入探讨一种按字节截取字符串的方法,并通过分析一个具体的Java代码示例来解释其实现原理。 #### 核心概念:Unicode与字节 在讨论字符串按字节截取之前,我们首先需要理解几个基础概念。现代计算机系统中,...

    java中截取带汉字的字符串

    这是因为一个中文字符通常占用多个字节(在UTF-8编码下通常是3个字节),而直接按字节数分割可能会在字符中间进行切割,导致数据损坏。 #### 解决方案 为了解决这一问题,我们可以采用一种更为智能的策略来确保...

    易语言分割字符串进制转换工具

    字符串分割通常涉及到`字符串分割`函数,它可以根据指定的分隔符将字符串切分成多个子串。例如,如果你有一个逗号分隔的数字列表,你可以使用该函数将其拆分成单独的数字字符串,然后再进行进制转换。 进制转换在...

    Java字符流与字节流区别

    字符流处理的单元为 2 个字节的 Unicode 字符,分别操作字符、字符数组或字符串,而字节流处理单元为 1 个字节,操作字节和字节数组。 Java 内用 Unicode 编码存储字符,字符流处理类负责将外部的其他编码的字符流...

    实现一个按字节来截取字符串的方法,功能类似于string类的substring方法,

    实现一个按字节来截取字符串的方法,功能类似于string类的substring方法,String类是按字符截取 的,例如"中国abc".substring(1,3),将返回“国a”。这里 要求按字节截取,一个英文字符当一个字节,一个中文字符当两...

    java编写一个截取字符串的函数,输入为一个字符串和字节数.docx

    Java 字符串截取函数 ...本例中,我们实现了一个 Java 字符串截取函数,该函数可以截取指定字节的字符串,并保证汉字不被截半个。该函数使用 `substring` 方法来实现字符串截取,并且可以应用于各种字符串处理场景。

    JAVA按字节截取字符串(适用于Unicode)

    7. 编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉...

    Java实现按行分割大文件

    Java实现按行分割大文件需要使用多种技术,例如读取大文件、构建字符串、创建目录、读取文件行、构建字符串、判断文件是否存在、处理异常、记录日志、记录时间、存储分割后的文件、获取文件名和分隔文件名等。

    Java 按照字节来截取字符串的代码(不会出现半个汉字)

    本文将详细解析提供的Java代码,了解如何实现按字节截取字符串,确保不出现半个汉字。 首先,给出的代码定义了一个名为`StringTool`的工具类,其中包含一个静态方法`getSubString`,该方法接受一个字符串`str`和一...

    labview字符串拆分到数组 支持中文1

    可以使用“字符串到数组”函数,将这个字符串按逗号“,”进行拆分。输入“我喜欢 LabVIEW”,“它很强大”会被分别存储到数组的不同元素中。 六、注意事项 1. 分隔符的选择:确保分隔符在字符串中是唯一的,否则...

    截取如下字符串“java程序教程”的前5个字节,字符串应该为“java程”,截取前6个字符,字符串也应该为“java程”,程序实现之.

    题目中提到“截取前5个字节, 字符串应该为‘java程’”,意味着我们需要理解,在UTF-8编码格式下,英文字符通常占用1个字节,而中文字符则占用3个字节。因此,实际上,从“java程序教程”中截取前5个字节,得到的...

    vb6.0 字节数组和字符串的相互转换.rar

    将字节数组转换回字符串,同样使用`StrConv`函数,但这次将`Conversion`设置为`vbUnicode`(对于非ASCII字符)或`vbFromUnicode`(对于ASCII字符)。由于VB6.0默认使用Unicode编码,因此通常使用`vbUnicode`。 示例...

    java 16进制表示的字符串转换为字节数组 工具类

    /** * 16进制表示的字符串转换为字节数组 * @param hexString 16进制表示的字符串 * @return byte[] 字节数组 */ public static byte[] hexStringToByteArray(String hexString) { hexString = hexString.replaceAll...

Global site tag (gtag.js) - Google Analytics