您现在的位置: 首页 > 微信营销 > 微信动态文章 > Java中编码以及Unicode是什么

Java中编码以及Unicode是什么

作者：pc668 来源：热度：1264 时间：2022-03-15

Java中编码以及Unicode是什么字符集多个字符集合的总称。ASCII字符集、GB2312字符集、GBK字符集、BIG5字符集、GB18003字符集、Unicode字符集，byte可表示2^8=256个字符的表示基本概念bit 位只能是0或者1byte 字节一个字节是8位，1 byte=8 bits 计算机表示的基本单位KB,MB,GB,TB,PB是以1024与byte进行换算进制用符号进行计数十进制、二进制、八进制(01

Java中编码以及Unicode是什么

字符集多个字符集合的总称。ASCII字符集、GB2312字符集、GBK字符集、BIG5字符集、GB18003字符集、Unicode字符集，byte可表示2^8=256个字符的表示

基本概念

bit 位只能是0或者1

byte 字节一个字节是8位，1 byte=8 bits 计算机表示的基本单位

KB,MB,GB,TB,PB是以1024与byte进行换算

进制用符号进行计数十进制、二进制、八进制(011)、十六进制(0xFF)

字符文字和符号的总称

1、

0 0×00 0000,0000

1 0×01 0000,0001

2 0×01 0000,0010

127 0×7F 0111,1111

-128 0×80 1000,0000

-2 0xFE 1111,1110

-1 0xFF 1111,1111

以补码的形式表示的二进制编码。

-2的表示,2=0000,0010,反码1111,1101,补码=反码 1=11111110

1111,1110表示的就是1111,1110-1=1111,1101,取反就是0000,0010也就是2,所以就是-2

2、

字符集和编码

2。
1字符(Character)

字符(Character)是文字与符号的总称，包括文字、图形符号、数学符号等。

2。2字符集(Character Set)

一组抽象字符的集合就是字符集(Character Set)。字符集常常和一种具体的语言文字对应起来，该文字中的所有字符或者大部分常用字符就构成了该文字的字符集，比如英文字符集。
一组有共同特征的字符也可以组成字符集，比如繁体汉字字符集、日文汉字字符集。字符集的子集也是字符集。

计算机要处理各种字符，就需要将字符和二进制内码对应起来，这种对应关系就是字符编码(Encoding)。制定编码首先要确定字符集，并将字符集内的字符排序，然后和二进制数字对应起来。
根据字符集内字符的多少，会确定用几个字节来编码。每种编码都限定了一个明确的字符集合，叫做被编码过的字符集 (Coded Character Set)，这是字符集的另外一个含义。通常所说的字符集大多都是指编码字符集(Coded Character Set)。

2。2。1 ASCII字符集

ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）是基于罗马字母表的一套电脑编码系统。由美国国家标准局(ANSI)制定。

7位，可以表示2^7=128个字符。在计算机的存储单元中，一个ASCII码值占一个字节(8个二进制位)，其最高位(b7)用作奇偶校验位。 7位编码的字符集只能支持128个字符，为了表示更多的欧洲常用字符对ASCII进行了扩展，ASCII扩展字符集使用8位（bits）表示一个字符，共 256字符。

ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。

2。2。2 GB2312 字符集

GB2312又称为GB2312-80字符集，全称为《信息交换用汉字编码字符集·基本集》，由原中国国家标准总局发布，1981年5月1日实施。
在中国大陆和新加坡获广泛使用。GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母，共 7445 个图形字符。其中包括6763个汉字，其中一级汉字3755个，二级汉字3008个；包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。各区包含的字符如下：01-09区为特殊符号；16-55区为一级汉字，按拼音排序；56-87区为二级汉字，按部首/笔画排序；10-15区及88-94区则未有编码。

两个字节中前面的字节为第一字节，后面的字节为第二字节。习惯上称第一字节为“高字节” ，而称第二字节为“低字节”。“高位字节”使用了0xA1-0xF7 (把01-87区(88-94区未有编码)的区号加上0xA0)，“低位字节”使用了0xA1-0xFE (把01-94加上0xA0)。

以GB2312字符集的第一个汉字“啊”字为例，它的区号16，位号01，则区位码是1601，在大多数计算机程序中，高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是：0xB0=0xA0 16, 0xA1=0xA0 1。

2。2。3 GBK 字符集

GBK全名为汉字内码扩展规范，英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音（KuoZhan11）中“扩”字的声母。GBK 来自中国国家标准代码GB 13000。
1-93。GBK: 汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位，并涵盖了原Unicode中所有的汉字20902，总共收录了883个符号， 21003个汉字及提供了1894个造字码位。[(GBKH-0xB0)*0x5E (GBKL-0xA1)]*(汉字离散后每个汉字点阵所占用的字节)

GBK是GB2312的扩展，是向上兼容的，因此GB2312中的汉字的编码与GBK中汉字的相同。
另外，GBK中还包含繁体字的编码。

GBK中每个汉字仍然包含两个字节，第一个字节的范围是0×81-0xFE（即129-254），第二个字节的范围是0×40-0xFE（即 64-254）。GBK中有码位23940个，包含汉字21003个。

2。
2。4 BIG5字符集

又称大五码或五大码，1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立，故称大五码。Big5码的产生，是因为当时台湾不同厂商各自推出不同的编码，如倚天码、IBM PS5

5、王安码等，彼此不能兼容；另一方面，台湾政府当时尚未推出官方的汉字编码，而中国大陆的GB2312编码亦未有收录繁体中文字。

Big5字符集共收录13,053个中文字，该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字：“兀”(0xA461及 0xC94A)、“嗀”(0xDCD1及0xDDFC)。

Big5码使用了双字节储存方法，以两个字节来编码一个字。
第一个字节称为“高位字节”，第二个字节称为“低位字节”。高位字节的编码范围 0xA1-0xF9，低位字节的编码范围0×40-0×7E及0xA1-0xFE。
各编码范围对应的字符类型如下：0xA140-0xA3BF为标点符号、希腊字母及特殊符号，另外于0xA259-0xA261，存放了双音节度量衡单位用字：兙兛兞兝兡兣嗧瓩糎；0xA440-0xC67E为常用汉字，先按笔划再按部首排序；0xC940-0xF9D5为次常用汉字，亦是先按笔划再按部首排序。

上一篇：我把微信弄成韩文了谁告诉我怎么改(微信语言韩文怎么改成中文) 下一篇：如果女生微信聊天时只回复你一两个字，你该怎么办(女生喜欢你的30个表现)

阅读推荐

使用微信帐号或QQ直接登录，无需注册

微信帐号登录

QQ 直接登录