您的位置 首页 java

「Java基础」字符集的简单回顾

ASCII (American Standard Code for Information Interchange 美国信息交换标准代码):

用7bit来表示一个字符,共计可以表示128字符。

ISO-8859-1:

用8bit来表示一个字符,即用一个字节(byte)表示一个字符,共计可以表示256字符。

由于iso-8859-1 是ascii的扩展,所以完全 向下兼容 ascii。

gb2312:

用2个字节表示一个汉字。

gbk

是对gb2312的扩展,是gb2312的超集。 将生僻字添加进来。

gb18030:

是最完整的汉字编码集。

big5

台湾的汉字的字符集。

unicode

全球的所有国家的字符集,采用了两个字节来表示一个字符。但是存储英文等字符会造成存储空间的浪费

UTF , Unicode Translation Format:

unicode是一种编码方式,而UTF则是一种存储方式; UTF-8 是unicode的一种实现方式。

utf-16le (little endian 小端) ,utf16-be (big endian 大端):

文件开头有zero width space,oxFEFF 开头 表示BE ,oxFFFE 开头 表示LE。

UTF-8,变长字节表示形式:

兼容 iso-8859-1和ascii,utf-8会通过3个字节来表示一个中文。

BOM (Byte order Mark 字节序标记) :

不可见字符,utf-8格式在windows系统上会被加上BOM头。

文章来源:智云一二三科技

文章标题:「Java基础」字符集的简单回顾

文章地址:https://www.zhihuclub.com/192240.shtml

关于作者: 智云科技

热门文章

网站地图