网站建设卩金手指科杰十四,广告制作自学入门的步骤,免费推广软件 推广帮手,录像网站怎么做GBK
中文名
汉字编码字符集
外文名
Chinese Internal Code Specification
全 称
《汉字内码扩展规范》
GBK编码#xff0c;是对GB2312编码的扩展#xff0c;因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案#xff0c;其编码范围#xff1a;8140… GBK
中文名
汉字编码字符集
外文名
Chinese Internal Code Specification
全 称
《汉字内码扩展规范》
GBK编码是对GB2312编码的扩展因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案其编码范围8140FEFE剔除xx7F码位共23940个码位。共收录汉字和图形符号21886个其中汉字包括部首和构件21003个图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布这一版的GBK规范为1.0版. UTF-8
UTF-8是Unicode的一种实现方式也就是它的字节结构有特殊要求所以我们说一个汉字的范围是0X4E00到0x9FA5是指unicode值至于放在utf-8的编码里去就是由三个字节来组织所以可以看出unicode是给出一个字符的范围定义了这个字是码值是多少至于具体的实现方式可以有多种多样来实现。
UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码如果只有一个字节则其最高二进制位为0如果是多字节其第一个字节从最高位开始连续的二进制位值为1的个数决定了其编码的位数其余各字节均以10开头。UTF-8最多可用到6个字节。 如表 1字节 0xxxxxxx 2字节 110xxxxx 10xxxxxx 3字节 1110xxxx 10xxxxxx 10xxxxxx 4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 因此UTF-8中可以用来表示字符编码的实际位数最多有31位即上表中x所表示的位。除去那些控制位每字节开头的10等这些x表示的位与UNICODE编码是一一对应的位高低顺序也相同。 实际将UNICODE转换为UTF-8编码时应先去除高位0然后根据所剩编码的位数决定所需最小的UTF-8编码位数。 因此那些基本ASCII字符集中的字符UNICODE兼容ASCII只需要一个字节的UTF-8编码7个二进制位便可以表示。 二者字符均使用双字节来表示只不过为区分中文将其最高位都定成1。 至于UTF8编码则是用以解决国际上字符的一种多字节编码它对英文使用8位即一个字节中文使用24位三个字节来编码。对于英文字符较多的论坛则用UTF8节省空间。 GBK包含全部中文字符UTF-8则包含全世界所有国家需要用到的字符。 GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准好像还不是国家标准 UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。 比如如果是UTF8编码则在外国人的英文IE上也能显示中文而无需他们下载IE的中文语言支持包。 所以对于英文比较多的论坛 使用GBK则每个字符占用2个字节而使用UTF8英文却只占一个字节。 UTF8是国际编码它的通用性比较好外国人也可以浏览论坛GBK是国家编码通用性比UTF8差不过UTF8占用的数据库比GBK大。 建议使用UTF-8。