找人代做网站费用,个人主页搭建,wordpress 3.6.2,江西网站设计电话系列文章合集
Golang - 90天从新手到大师 String
一个字符串是一个不可改变的字节序列。字符串可以包含任意的数据#xff0c;但是通常是用来包含人类可读的文本。
len()返回字符串字节数目#xff08;不是rune数#xff09;。
通过索引可以访问某个字节值#xff0c;0… 系列文章合集
Golang - 90天从新手到大师 String
一个字符串是一个不可改变的字节序列。字符串可以包含任意的数据但是通常是用来包含人类可读的文本。
len()返回字符串字节数目不是rune数。
通过索引可以访问某个字节值0 index len(str)。越界会panic。索引不是对应的字符而是对应的字节因为有有非ASCII的UTF8字符有多个字节。
s : hello, worldfmt.Println(len(s)) // 12 英文字符占一个字节
fmt.Println(s[0], s[7]) // 104 119 (h and w)
for range
循环是循环的字节而非字符
for i, r : range Hello, 世界ꡐ {fmt.Printf(%d\t%q\t%d\n, i, r, r)
}
0 H 721 e 101
2 l 108
3 l 108
4 o 111
5 , 44
6 32
7 世 19990
10 界 30028
13 ꡐ 43088
第三列是字符的码点。
字符串截取与链接
fmt.Println(s[:5]) // hello
fmt.Println(s[7:]) // world
fmt.Println(s[:]) // hello, world
fmt.Println(hi s[5:]) //hi world
比较
1 字符串可以用和进行比较。通过逐个字节比较完成的因此比较的结果是字符串自然编码的顺序。
2 原生字符
使用反引号括起来没有转义操作。 应用HTML模板、JSON面值、命令行提示信息等。
编码
1 Unicode让我们可以通过Unicode码点输入特殊的字符。有两种形式:\uhhhh对应16bit的码点值\Uhhhhhhhh对应32bit的码点值其中h是一个十六进制数字每一个对应码点的UTF8编码。以下表示相同字符
世界
\xe4\xb8\x96\xe7\x95\x8c
\u4e16\u754c
\U00004e16\U0000754c
2 对于小于256码点值可以写在一个十六进制转义字节中例如\x41对应字符A但是对于更大的码点则必须使用\u或\U转义形式。因此\xe4\xb8\x96并不是一个合法的rune字符虽然 这三个字节对应一个有效的UTF8编码的码点。 3 字符串长度用utf8.RuneCountInString(s)来获取。
rune
1 Unicode码点对应Go语言中的rune整数类型。 2 因为 rune大小一致所以支持数组索引和方便切割。
string与[]rune转换
r : []rune(你好 world!)
fmt.Printf(%x\n, r) // [4f60 597d 20 77 6f 72 6c 64 21]
fmt.Println(string(r)) // 你好 world
}
fmt.Println(string(65)) // A, not 65 整形字符串输出为unicode码点的utf8字符串。
fmt.Println(string(0x4eac)) // 京
对字符串操作的4个包bytes、strings、strconv、unicode包 bytes包操作[]byte。因为字符串是只读的因此逐步构创建字符串会导致很多分配和复制。使用 bytes.Buffer类型会更高。 strings包提供切割索引前缀,查找替换等功能。 strconv包提供了布尔型、整型数、浮点数和对应字符串的相互转换还提供了双引号转义相 关的转换。 unicode包提供了IsDigit、IsLetter、IsUpper和IsLower等类似功能它们用于给字符分类。
字符串与数字转换
将一个整数转为字符串
x : 123
fmt.Println(strconv.Itoa(x)) // 123
将一个字符串解析为整数
x, err : strconv.Atoi(123) // x is an int
y, err : strconv.ParseInt(123, 10, 64)
FormatInt和FormatUint函数可以用不同的进制来格式化数字: fmt.Println(strconv.FormatInt(int64(23), 2)) //将int64转换成2进制 底层原型及编码
#runtime/string.go
type stringStruct struct {str unsafe.Pointerlen int
}
从字符串定义可以看出字符串是一个结构体包含字符串指针和长度。 测试代码见下方
package main
var s string
func main() {s 123 你好 world!
}
编译及通过gdb查看变量s的内存数据分布见图1 图1
从上图可得知字符串数字123占3个字节分别为0x31 0x32 0x33。分别对应的是ascii。
\344\275\240\345\245\275是8进制表示的你好。
0xe4 0xbd 0xa0 0xe5 0xa5 0xbd是16进制表示的你好。
那计算机是如何识别是ascii还是unicode的呢内存中存储的都是以字节为单元的相邻哪几个是组成一个汉字呢为了说明这个问题还是看一下上图1以”好“这个字说明见下表格
8进制34524527516进制0xe50xa50xbd2进制111001011010010110111101
“好”字的依据图2可知unicode的十六进制值为\u597d。 参考https://www.unicode.org/charts/PDF/Unicode-5.2/U52-4E00.pdf 图2
那如何将3个字节转换成unicode的呢 根据utf8编码规则见图3-go语言圣经截图 图3-go语言圣经截图 发现好字的2进制表示正好符合1110xxxx 10xxxxxx 10xxxxxx 所以计算机识别的时候只要识别到1110且后两个字节的前2位都是10那这3个字节组成的就表示成一个字。 具体如何将这3个字节转换成unicode有兴趣的朋友可以查查。 转换成unicode之后就可以根据unicode码找到字体包中的字。