unicode 是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。每个字符都对应一个编号,编号的范围是0-0x10FFFF来。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的编码
UTF是“Unicode Transformation Format”的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据。
在Unicode中:汉字“字”对应的数字是23383(十进制),十六进制表示为5B57。在Unicode中,我们有很多方式将数字23383表示成程序中的数据,包括:、、。
UTF-8以字节为单位对Unicode进行编码。并且是变长的,节省补0空间(总长 = 1字节+补0空间,比如对于 英文字符只用1个字节表示,不用补0)。而 Unicode 总是需要固定长的空间(总是要 补0)。
Unicode编码(十六进制) UTF-8 字节流(二进制)000000-00007F0xxxxxxx000080-0007FF110xxxxx 10xxxxxx000800-00FFFF1110xxxx 10xxxxxx 10xxxxxx010000-10FFFF 11110xxx10xxxxxx10xxxxxx10xxxxxx