Java学习笔记-字符编码

计算机的本质是对数字的处理，所以，任何需要计算机处理的字符都必须首先完成数字化，即利用数字对字符进行编码。有鉴于编码方式的不同，产生了多种“字符编码”。

1.本地化编码

任何国家的字符要在计算机中表示均需对其进行编码工作，初期，各国均针对自己特有字符进行各自的编码。如美国提出的 ASCII 码，占用一个字节；中国的 GB2312 码，占用两个字节，随后又在此基础上提出了 GBK 编码。这些编码均可视为本地化编码。

2.unicode 码

本地化编码的多样性必然带来解析的差异性，为解决这个问题，业界需要一种统一化的编码规范，ISO 将全世界的所有的符号进行了统一的编码，即 unicode。使用 unicode 码，字符不在区分国家和地区。

unicode 采用两个字节对字符进行编码，可知 unicode 最大能力只能对 2^16=65536 个字符进行编码。实际上，unicode 编码中还保留了 2000 多个数值没有用于字符编码，如此一来，unicode 编码只有 63000 多个基本字符。这种情况当然不可能包括世界上所有的字符，如中国的藏文、满文等。但现有编码足以应付绝大多数场合的需要了。

ziat

发送评论编辑评论

ziat

发送评论 编辑评论

发送评论编辑评论