ASCII (American Standard Code for Information Interchange 美国信息交换标准代码):
用7bit来表示一个字符,共计可以表示128字符。
ISO-8859-1:
用8bit来表示一个字符,即用一个字节(byte)表示一个字符,共计可以表示256字符。
由于iso-8859-1 是ascii的扩展,所以完全 向下兼容 ascii。
gb2312:
用2个字节表示一个汉字。
gbk :
是对gb2312的扩展,是gb2312的超集。 将生僻字添加进来。
gb18030:
是最完整的汉字编码集。
big5 :
台湾的汉字的字符集。
unicode :
全球的所有国家的字符集,采用了两个字节来表示一个字符。但是存储英文等字符会造成存储空间的浪费
UTF , Unicode Translation Format:
unicode是一种编码方式,而UTF则是一种存储方式; UTF-8 是unicode的一种实现方式。
utf-16le (little endian 小端) ,utf16-be (big endian 大端):
文件开头有zero width space,oxFEFF 开头 表示BE ,oxFFFE 开头 表示LE。
UTF-8,变长字节表示形式:
兼容 iso-8859-1和ascii,utf-8会通过3个字节来表示一个中文。
BOM (Byte order Mark 字节序标记) :
不可见字符,utf-8格式在windows系统上会被加上BOM头。