Java语言的char类型是16位的;
Java支持Unicode,Java对Unicode支持采用的是UTF-16的编码实现;
在UTF-16下,Java的一个Unicode字符(代码点)由1或2个char(代码单元)表示。
Some sources for these fact:
http://baike.baidu.com/view/40801.htm?fr=ala0 ----> Unicode与UTF-8,UTF-16,UTF-32的关系
Core java(Volnume 1) Page 45 ----> 代码点,代码单元的概念
顺便贴出一个程序:
public class UnicodeShow {
public static void main(String[] args) {
String string = "我们都是中国人\uD843\uDC30";
/*返回这个字符串的代码单元数,也就是问"我们都是中国人"中有多少个16位,UTF-16中16位为一个代码单元。*/
System.out.println("The size of string \"我们都是中国人\uD843\uDC30\" is " + string.length());
System.out.println("The Unicode of 我 is \\u" + Integer.toHexString((short)string.charAt(0)));
}
}
其实在UCS-4标准中,有些代码点比如一些非常少见的字符,包括一些生僻汉字是4字节编码的即2个代码点。只是UCS-4标准很多设备还不支持。于是\uD843\uDC30显示一个方框\u20C30。
这是我的程序运行结果:
The size of string "我们都是中国人