Java学习笔记-字符编码


计算机的本质是对数字的处理,所以,任何需要计算机处理的字符都必须首先完成数字化,即利用数字对字符进行编码。有鉴于编码方式的不同,产生了多种“字符编码”。

1.本地化编码

任何国家的字符要在计算机中表示均需对其进行编码工作,初期,各国均针对自己特有字符进行各自的编码。如美国提出的 ASCII 码,占用一个字节;中国的 GB2312 码,占用两个字节,随后又在此基础上提出了 GBK 编码。这些编码均可视为本地化编码。

2.unicode 码

本地化编码的多样性必然带来解析的差异性,为解决这个问题,业界需要一种统一化的编码规范,ISO 将全世界的所有的符号进行了统一的编码,即 unicode。使用 unicode 码,字符不在区分国家和地区

unicode 采用两个字节对字符进行编码,可知 unicode 最大能力只能对 2^16=65536 个字符进行编码。实际上,unicode 编码中还保留了 2000 多个数值没有用于字符编码,如此一来,unicode 编码只有 63000 多个基本字符。这种情况当然不可能包括世界上所有的字符,如中国的藏文、满文等。但现有编码足以应付绝大多数场合的需要了。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇