2.2 词法和语法分析

当使用通用编程语言1进行编写代码时,我们一定要知道代码是写给人看的,只是恰好可以被机器编译和执行,而很难被人理解的代码是非常糟糕并且不容易维护的。代码其实就是按照约定格式编写的一堆字符串,经过训练的软件工程师可以在脑内对语言的源代码进行编译并运行目标程序,我们能对本来无意义的字符串进行分组和分析,按照约定的语法来理解源代码。

既然工程师能够按照一定的方式理解和编译 Go 语言的源代码,那么我们如何模拟人理解源代码的方式构建一个能够分析编程语言代码的程序呢。我们在这一节中将介绍词法分析和语法分析这两个重要的编译过程,这两个过程能将原本机器看来无序意义的源文件转换成更容易理解、分析并且结构化的抽象语法树,接下来我们就看一看解析器眼中的 Go 语言是什么样的。

2.2.1 词法分析

源代码在编译器眼中其实就是一团乱麻,一个由『无实际意义』字符组成的、无法被理解的字符串,所有的字符在编译器看来并没有什么区别,为了理解这些字符我们需要做的第一件事情就是将字符串分组,这样能够降低理解字符串的成本,简化分析源代码的过程。

  1. make(chan int)

一个不懂编程的人看到上述文本的的第一反应就是将上述字符串分成几个部分 - makechanint 和括号,这个凭直觉分解文本的过程其实就是词法分析,词法分析是计算机科学中将字符序列转换为标记(token)序列的过程2

lex

lex3 是用于生成词法分析器的工具,lex 生成的代码能够将一个文件中的字符分解成 Token 序列,很多语言在设计早期都会使用它快速设计出原型。词法分析作为具有固定模式的任务,出现这种更抽象的工具其实是必然的,lex 作为一个代码生成器,使用了类似 C 语言的语法,我们可以理解成 lex 使用正则匹配对输入的字符流进行扫描,下面是一个 lex 文件的示例:

  1. %{
  2. #include <stdio.h>
  3. %}
  4. %%
  5. package printf("PACKAGE ");
  6. import printf("IMPORT ");
  7. \. printf("DOT ");
  8. \{ printf("LBRACE ");
  9. \} printf("RBRACE ");
  10. \( printf("LPAREN ");
  11. \) printf("RPAREN ");
  12. \" printf("QUOTE ");
  13. \n printf("\n");
  14. [0-9]+ printf("NUMBER ");
  15. [a-zA-Z_]+ printf("IDENT ");
  16. %%

这个定义好的文件能够解析 packageimport 关键字、常见的特殊字符、数字以及标识符,虽然这里的规则可能有一些简陋和不完善,但是如果用来解析下面的这一段代码还是比较轻松的:

  1. package main
  2. import (
  3. "fmt"
  4. )
  5. func main() {
  6. fmt.Println("Hello")
  7. }

.l 结尾的 lex 代码并不能直接运行,首先需要通过 lex 命令将上面的 simplego.l 『展开』成 C 语言代码,这里可以直接执行如下的命令编译并打印当前文件中的内容:

  1. $ lex simplego.l
  2. $ cat lex.yy.c
  3. ...
  4. int yylex (void) {
  5. ...
  6. while ( 1 ) {
  7. ...
  8. yy_match:
  9. do {
  10. register YY_CHAR yy_c = yy_ec[YY_SC_TO_UI(*yy_cp)];
  11. if ( yy_accept[yy_current_state] ) {
  12. (yy_last_accepting_state) = yy_current_state;
  13. (yy_last_accepting_cpos) = yy_cp;
  14. }
  15. while ( yy_chk[yy_base[yy_current_state] + yy_c] != yy_current_state ) {
  16. yy_current_state = (int) yy_def[yy_current_state];
  17. if ( yy_current_state >= 30 )
  18. yy_c = yy_meta[(unsigned int) yy_c];
  19. }
  20. yy_current_state = yy_nxt[yy_base[yy_current_state] + (unsigned int) yy_c];
  21. ++yy_cp;
  22. } while ( yy_base[yy_current_state] != 37 );
  23. ...
  24. do_action:
  25. switch ( yy_act )
  26. case 0:
  27. ...
  28. case 1:
  29. YY_RULE_SETUP
  30. printf("PACKAGE ");
  31. YY_BREAK
  32. ...
  33. }

lex.yy.c4 的前 600 行基本都是宏和函数的声明和定义,后面生成的代码大都是为 yylex 这个函数服务的,这个函数使用有限自动机(DFA)5的程序结构来分析输入的字符流,上述代码中 while 循环就是这个有限自动机的主体,你如果仔细看这个文件生成的代码会发现当前的文件中并不存在 main 函数,main 函数其实是在 liblex 这个库中定义的,所以在编译时其实需要添加额外的 -ll 选项:

  1. $ cc lex.yy.c -o simplego -ll
  2. $ cat main.go | ./simplego

当我们将 C 语言代码通过 gcc 编译成二进制代码之后,就可以使用管道将上面提到的 Go 语言代码作为输入传递到生成的词法分析器中,这个词法分析器会打印出如下的内容:

  1. PACKAGE IDENT
  2. IMPORT LPAREN
  3. QUOTE IDENT QUOTE
  4. RPAREN
  5. IDENT IDENT LPAREN RPAREN LBRACE
  6. IDENT DOT IDENT LPAREN QUOTE IDENT QUOTE RPAREN
  7. RBRACE

从上面的输出我们能够看到 Go 源代码的影子,lex 生成的词法分析器 lexer 通过正则匹配的方式将机器原本很难理解的字符串进行分解成很多的 Token,有利于后面的继续处理。

simplego-lex

图 2-7 从 .l 文件到二进制

如上图所示,到这里我们已经为各位读者展示了从定义 .l 文件,使用 lex.l 文件编译成 C 语言代码到编译成二进制的全过程,而最后生成的词法分析器也能够将简单的 Go 语言代码进行分组,lex 的使用还是比较简单的,我们可以使用它快速实现词法分析器,相信各位读者对这个工具也有了一定的了解。

Go

Go 语言的词法解析是通过 src/cmd/compile/internal/syntax/scanner.go6 文件中的 scanner 结构体实现的,这个结构体会持有当前扫描的数据源文件、启用的模式和当前被扫描到的 Token:

  1. type scanner struct {
  2. source
  3. mode uint
  4. nlsemi bool
  5. // current token, valid after calling next()
  6. line, col uint
  7. tok token
  8. lit string
  9. kind LitKind
  10. op Operator
  11. prec int
  12. }

src/cmd/compile/internal/syntax/tokens.go7 文件中定义了 Go 语言中支持的全部 Token 类型,所有的 token 类型都是正整数,你可以在这个文件中找到一些常见 Token 的定义,例如:操作符、括号和关键字等:

  1. const (
  2. _ token = iota
  3. _EOF // EOF
  4. // operators and operations
  5. _Operator // op
  6. // ...
  7. // delimiters
  8. _Lparen // (
  9. _Lbrack // [
  10. // ...
  11. // keywords
  12. _Break // break
  13. // ...
  14. _Type // type
  15. _Var // var
  16. tokenCount //
  17. )

从 Go 语言中定义的 Token 类型,我们可以将语言中的元素分成几个不同的类别,分别是名称和字面量、操作符、分隔符和关键字。词法分析主要是由 scanner 这个结构体中的 next 方法驱动,这个 250 行函数的主体就是一个 switch/case 结构:

  1. func (s *scanner) next() {
  2. c := s.getr()
  3. for c == ' ' || c == '\t' || c == '\n' || c == '\r' {
  4. c = s.getr()
  5. }
  6. s.line, s.col = s.source.line0, s.source.col0
  7. if isLetter(c) || c >= utf8.RuneSelf && s.isIdentRune(c, true) {
  8. s.ident()
  9. return
  10. }
  11. switch c {
  12. case -1:
  13. s.tok = _EOF
  14. case '0', '1', '2', '3', '4', '5', '6', '7', '8', '9':
  15. s.number(c)
  16. // ...
  17. }
  18. }

scanner 每次都会通过 getr 函数获取文件中最近的未被解析的字符,然后根据当前字符的不同执行不同的 case,如果遇到了空格和换行符这些空白字符会直接跳过,如果当前字符是 0 就会执行 number 方法尝试匹配一个数字。

  1. func (s *scanner) number(c rune) {
  2. s.startLit()
  3. s.kind = IntLit
  4. for isDigit(c) {
  5. c = s.getr()
  6. }
  7. s.ungetr()
  8. s.nlsemi = true
  9. s.lit = string(s.stopLit())
  10. s.tok = _Literal
  11. }

上述的 number 方法省略了很多的代码,包括如何匹配浮点数、指数和复数,我们只是简单看一下词法分析匹配的逻辑。

  • 在开始具体匹配之前调用 startLit 记录一下当前 Token 的开始位置;
  • 在 for 循环中不断获取最新的字符,将字符追加到 scanner 持有的缓冲区中;
  • 方法返回之前会通过 ungetr 撤销最近获取的错误字符(非数字)并将字面量和 Token 的类型传递回 scanner;当前包中的词法分析器 scanner 也只是为上层提供了 next 方法,词法解析的过程都是惰性的,只有在上层的解析器需要时才会调用 next 获取最新的 Token。

Go 语言的词法元素相对来说还是比较简单,使用这种巨大的 switch/case 进行词法解析也比较方便和顺手,早期的 Go 语言虽然使用 lex 这种工具来生成词法解析器,但是最后还是使用 Go 来实现词法分析器,用自己写的词法分析器来解析自己8

2.2.2 语法分析

说完了编译最开始的词法分析过程,接下来就到了语法分析,语法分析是根据某种特定的形式文法(Grammar)对 Token 序列构成的输入文本进行分析并确定其语法结构的一种过程9。从上面的定义来看,词法分析器输出的结果 — Token 序列就是语法分析器的输入。

在语法分析的过程会使用自顶向下或者自底向上的方式进行推导,在介绍 Go 语言的语法分析的实现原理之前,我们会先来介绍语法分析中的文法和分析方法。

文法

上下文无关文法是用来对某种编程语言进行形式化的、精确的描述工具,我们能够通过文法定义一种语言的语法,它主要包含了一系列用于转换字符串的生产规则(production rule)10。上下文无关文法中的每一个生产规则都会将规则左侧的非终结符转换成右侧的字符串,文法都由以下的四个部分组成:

终结符是文法中无法再被展开的符号,而非终结符与之相反,还可以通过生产规则进行展开,例如 “id”、“123” 等标识或者字面量11

  • $N$ 有限个非终结符的集合;
  • $\Sigma$ 有限个终结符的集合;
  • $P$ 有限个生产规则12的集合;
  • $S$ 非终结符集合中唯一的开始符号;

文法被定义成一个四元组 $(N, \Sigma, P, S)$,这个元组中的几部分就是上面提到的四个符号,其中最为重要的就是生产规则了,每一个生产规则都会包含非终结符、终结符或者开始符号,我们在这里可以举一个简单的例子:

  • $S \rightarrow aSb $
  • $S \rightarrow ab $上述规则构成的文法就能够表示 abaabb 以及 aaa..bbb 等字符串,编程语言的文法就是由这一系列的生产规则表示的,在这里我们可以从 src/cmd/compile/internal/syntax/parser.go13 文件中摘抄一些 Go 语言文法的生产规则:
  1. SourceFile = PackageClause ";" { ImportDecl ";" } { TopLevelDecl ";" } .
  2. PackageClause = "package" PackageName .
  3. PackageName = identifier .
  4. ImportDecl = "import" ( ImportSpec | "(" { ImportSpec ";" } ")" ) .
  5. ImportSpec = [ "." | PackageName ] ImportPath .
  6. ImportPath = string_lit .
  7. TopLevelDecl = Declaration | FunctionDecl | MethodDecl .
  8. Declaration = ConstDecl | TypeDecl | VarDecl .

Go 语言更详细的文法可以从 Language Specification14 中找到,这里不仅包含语言的文法,还包含词法元素、内置函数等信息。

因为每个 Go 源代码文件最终都会被解析成一个独立的抽象语法树,所以语法树最顶层的结构或者开始符号其实就是 SourceFile

  1. SourceFile = PackageClause ";" { ImportDecl ";" } { TopLevelDecl ";" } .

SourceFile 相关的生产规则我们可以看出,每一个文件都包含一个 package 的定义以及可选的 import 声明和其他的顶层声明(TopLevelDecl),每一个 SourceFile 在编译器中都对应一个 File 结构体,你能从它们的定义中轻松找到两者的联系:

  1. type File struct {
  2. PkgName *Name
  3. DeclList []Decl
  4. Lines uint
  5. node
  6. }

顶层声明有五大类型,分别是常量、类型、变量、函数和方法,你可以在文件 src/cmd/compile/internal/syntax/parser.go 中找到这五大类型的定义。

  1. ConstDecl = "const" ( ConstSpec | "(" { ConstSpec ";" } ")" ) .
  2. ConstSpec = IdentifierList [ [ Type ] "=" ExpressionList ] .
  3. TypeDecl = "type" ( TypeSpec | "(" { TypeSpec ";" } ")" ) .
  4. TypeSpec = AliasDecl | TypeDef .
  5. AliasDecl = identifier "=" Type .
  6. TypeDef = identifier Type .
  7. VarDecl = "var" ( VarSpec | "(" { VarSpec ";" } ")" ) .
  8. VarSpec = IdentifierList ( Type [ "=" ExpressionList ] | "=" ExpressionList ) .

上述的文法分别定义了 Go 语言中常量、类型和变量三种常见的结构,从文法中可以看到语言中的很多关键字 consttypevar,稍微回想一下我们日常接触的 Go 语言代码就能验证这里文法的正确性。

除了三种简单的语法结构之外,函数和方法的定义就更加复杂,从下面的文法我们可以看到 Statement 总共可以转换成 15 种不同的语法结构,这些语法结构就包括我们经常使用的 switch/case、if/else、for 循环以及 select 等语句:

  1. FunctionDecl = "func" FunctionName Signature [ FunctionBody ] .
  2. FunctionName = identifier .
  3. FunctionBody = Block .
  4. MethodDecl = "func" Receiver MethodName Signature [ FunctionBody ] .
  5. Receiver = Parameters .
  6. Block = "{" StatementList "}" .
  7. StatementList = { Statement ";" } .
  8. Statement =
  9. Declaration | LabeledStmt | SimpleStmt |
  10. GoStmt | ReturnStmt | BreakStmt | ContinueStmt | GotoStmt |
  11. FallthroughStmt | Block | IfStmt | SwitchStmt | SelectStmt | ForStmt |
  12. DeferStmt .
  13. SimpleStmt = EmptyStmt | ExpressionStmt | SendStmt | IncDecStmt | Assignment | ShortVarDecl .

这些不同的语法结构共同定义了 Go 语言中能够使用的语法结构和表达式,对于 Statement 展开的更多内容这篇文章就不会详细介绍了,感兴趣的读者可以直接查看 Go 语言说明书或者直接从 src/cmd/compile/internal/syntax/parser.go 文件中找到想要的答案。

分析方法

语法分析的分析方法一般分为自顶向下和自底向上两种,这两种方式会使用不同的方式对输入的 Token 序列进行推导:

  • 自顶向下分析:可以被看作找到当前输入流最左推导的过程,对于任意一个输入流,根据当前的输入符号,确定一个生产规则,使用生产规则右侧的符号替代相应的非终结符向下推导15
  • 自底向上分析:语法分析器从输入流开始,每次都尝试重写最右侧的多个符号,这其实就是说解析器会从最简单的符号进行推导,在解析的最后合并成开始符号16

如果读者无法理解上述的定义也没有关系,我们会在这一节的剩余部分介绍两种不同的分析方法以及它们的具体分析过程。

自顶向下

LL 文法17就是一种使用自顶向上分析方法的文法,下面给出了一个常见的 LL 文法:

  • $S \rightarrow aS_1$
  • $S_1 \rightarrow bS_1 $
  • $S_1 \rightarrow \epsilon$假设我们存在以上的生产规则和输入流 abb,如果这里使用自顶向上的方式进行语法分析,我们可以理解为每次解析器会通过新加入的字符判断应该使用什么方式展开当前的输入流:

  • $S$ (开始符号)

  • $aS_1$(规则 1)
  • $abS_1$(规则 2)
  • $abbS_1$(规则 2)
  • $abb$(规则 3)这种分析方法一定会从开始符号分析,通过下一个即将入栈的符号判断应该如何对当前堆栈中最右侧的非终结符($S$ 或 $S_1$)进行展开,直到整个字符串中不存在任何的非终结符,整个解析过程才会结束。

自底向上

但是如果我们使用自底向上的方式对输入流进行分析时,处理过程就会完全不同了,常见的四种文法 LR(0)、SLR、LR(1) 和 LALR(1) 使用了自底向上的处理方式18,我们可以简单写一个与上一节中效果相同的 LR(0) 文法:

  • $S \rightarrow S_1 $
  • $S_1 \rightarrow S_1b $
  • $S_1 \rightarrow a $使用上述等效的文法处理同样地输入流 abb 会使用完全不同的过程对输入流进行展开:

  • $a$(入栈)

  • $S_1$(规则 3)
  • $S_1b$(入栈)
  • $S_1$(规则 2)
  • $S_1b$(入栈)
  • $S_1$(规则 2)
  • $S$(规则 1)自底向上的分析过程会维护一个堆栈用于存储未被归约的符号,在整个过程中会执行两种不同的操作,一种叫做入栈(shift),也就是将下一个符号入栈,另一种叫做归约(reduce),也就是对最右侧的字符串按照生产规则进行合并。

上述的分析过程和自顶向上的分析方法完全不同,这两种不同的分析方法其实也代表了计算机科学中两种不同的思想 — 从抽象到具体和从具体到抽象。

Lookahead

在语法分析中除了 LL 和 LR 这两种不同类型的语法分析方法之外,还存在另一个非常重要的概念,就是向前查看(Lookahead),在不同生产规则发生冲突时,当前解析器需要通过预读一些 Token 判断当前应该用什么生产规则对输入流进行展开或者归约19,例如在 LALR(1) 文法中,就需要预读一个 Token 保证出现冲突的生产规则能够被正确处理。

Go

Go 语言的解析器就使用了 LALR(1) 的文法来解析词法分析过程中输出的 Token 序列20,最右推导加向前查看构成了 Go 语言解析器的最基本原理,也是大多数编程语言的选择。

我们在概述中已经介绍了编译器的主函数,该函数调用的 parseFiles 就会对使用多个 Goroutine 来解析源文件,解析的过程就会使用 Parse 函数,该函数初始化了一个新的 parser 结构体并通过 fileOrNil 方法开启对当前文件的词法和语法解析:

  1. func Parse(base *PosBase, src io.Reader, errh ErrorHandler, pragh PragmaHandler, mode Mode) (_ *File, first error) {
  2. var p parser
  3. p.init(base, src, errh, pragh, mode)
  4. p.next()
  5. return p.fileOrNil(), p.first
  6. }

fileOrNil 方法其实就是对上面介绍的 Go 语言文法的实现,该方法首先会解析文件开头的 package 定义:

  1. // SourceFile = PackageClause ";" { ImportDecl ";" } { TopLevelDecl ";" } .
  2. func (p *parser) fileOrNil() *File {
  3. f := new(File)
  4. f.pos = p.pos()
  5. if !p.got(_Package) {
  6. p.syntaxError("package statement must be first")
  7. return nil
  8. }
  9. f.PkgName = p.name()
  10. p.want(_Semi)

从上面的这一段方法中我们可以看出,当前方法会通过 got 来判断下一个 Token 是不是 package 关键字,如果是 package 关键字,就会执行 name 来匹配一个包名并将结果保存到返回的文件结构体中。

  1. for p.got(_Import) {
  2. f.DeclList = p.appendGroup(f.DeclList, p.importDecl)
  3. p.want(_Semi)
  4. }

确定了当前文件的包名之后,就开始解析可选的 import 声明,每一个 import 在解析器看来都是一个声明语句,这些声明语句都会被加入到文件的 DeclList 列表中。

在这之后就会根据编译器获取的关键字进入 switch 的不同分支,这些分支调用 appendGroup 方法并在方法中传入用于处理对应类型语句的 constDecltypeDecl 函数。

  1. for p.tok != _EOF {
  2. switch p.tok {
  3. case _Const:
  4. p.next()
  5. f.DeclList = p.appendGroup(f.DeclList, p.constDecl)
  6. case _Type:
  7. p.next()
  8. f.DeclList = p.appendGroup(f.DeclList, p.typeDecl)
  9. case _Var:
  10. p.next()
  11. f.DeclList = p.appendGroup(f.DeclList, p.varDecl)
  12. case _Func:
  13. p.next()
  14. if d := p.funcDeclOrNil(); d != nil {
  15. f.DeclList = append(f.DeclList, d)
  16. }
  17. }
  18. }
  19. f.Lines = p.source.line
  20. return f
  21. }

fileOrNil 方法使用了非常多的子方法对输入的文件进行语法分析,并在最后会返回文件最开始创建的 File 结构体。

读到这里的人可能会有一些疑惑,为什么没有看到词法分析的代码,这是因为词法分析器 scanner 作为结构体被嵌入到了 parser 中,所以这个方法中的 p.next() 实际上调用的是 scannernext 方法,它会直接获取文件中的下一个 Token,所以词法分析和语法分析其实是一起进行的。

fileOrNil 与在这个方法中执行的其他子方法共同构成了一颗树,这棵树根节点就是 fileOrNil,子节点就是 importDeclconstDecl 等方法,它们与 Go 语言文法中的生产规则一一对应。

golang-parse

图 2-8 Go 语言解析器的方法

fileOrNilconstDecl 等方法对应了一个 Go 语言中的生产规则,例如 fileOrNil 实现的就是:

  1. SourceFile = PackageClause ";" { ImportDecl ";" } { TopLevelDecl ";" } .

我们根据这个规则就能很好地理解语法分析器 parser 的实现原理 - 将编程语言的所有生产规则映射到对应的方法上,这些方法构成的树形结构最终会返回一个抽象语法树。

因为大多数方法的实现都非常相似,所以这里就仅介绍 fileOrNil 方法的实现了,想要了解其他方法的实现原理,读者可以自行查看 src/cmd/compile/internal/syntax/parser.go 文件,该文件包含了语法分析阶段的全部方法。

辅助方法

虽然这里不会展开介绍其他类似方法的实现,但是解析器运行过程中有几个辅助方法我们还是要简单说明一下,首先就是 gotwant 这两个常见的方法:

  1. func (p *parser) got(tok token) bool {
  2. if p.tok == tok {
  3. p.next()
  4. return true
  5. }
  6. return false
  7. }
  8. func (p *parser) want(tok token) {
  9. if !p.got(tok) {
  10. p.syntaxError("expecting " + tokstring(tok))
  11. p.advance()
  12. }
  13. }

got 其实只是用于快速判断一些语句中的关键字,如果当前解析器中的 Token 是传入的 Token 就会直接跳过该 Token 并返回 true;而 want 就是对 got 的简单封装了,如果当前的 Token 不是我们期望的,就会立刻返回语法错误并结束这次编译。

这两个方法的引入能够帮助工程师在上层减少判断关键字的大量重复逻辑,让上层语法分析过程的实现更加清晰。

另一个方法 appendGroup 的实现就稍微复杂了一点,它的主要作用就是找出批量的定义,我们可以简单举一个例子:

  1. var (
  2. a int
  3. b int
  4. )

这两个变量其实属于同一个组(Group),各种顶层定义的结构体 ConstDeclVarDecl 在进行语法分析时有一个额外的参数 Group,这个参数就是通过 appendGroup 方法传递进去的:

  1. func (p *parser) appendGroup(list []Decl, f func(*Group) Decl) []Decl {
  2. if p.tok == _Lparen {
  3. g := new(Group)
  4. p.list(_Lparen, _Semi, _Rparen, func() bool {
  5. list = append(list, f(g))
  6. return false
  7. })
  8. } else {
  9. list = append(list, f(nil))
  10. }
  11. return list
  12. }

appendGroup 方法会调用传入的 f 方法对输入流进行匹配并将匹配的结果追加到另一个参数 File 结构体中的 DeclList 数组中,importconstvartypefunc 声明语句都是调用 appendGroup 方法进行解析的。

节点

语法分析器最终会使用不同的结构体来构建抽象语法树中的节点,其中根节点 File 我们已经在上面介绍过了,其中包含了当前文件的包名、所有声明结构的列表和文件的行数:

  1. type File struct {
  2. PkgName *Name
  3. DeclList []Decl
  4. Lines uint
  5. node
  6. }

其他节点的结构体也都在 src/cmd/compile/internal/syntax/nodes.go 文件中定义了,文件中定义了全部声明类型的结构体,在这里简单看一下函数声明的结构:

  1. type (
  2. Decl interface {
  3. Node
  4. aDecl()
  5. }
  6. FuncDecl struct {
  7. Attr map[string]bool
  8. Recv *Field
  9. Name *Name
  10. Type *FuncType
  11. Body *BlockStmt
  12. Pragma Pragma
  13. decl
  14. }
  15. }

从函数定义中我们可以看出,函数在语法结构上主要由接受者、函数名、函数类型和函数体几个部分组成,函数体 BlockStmt 是由一系列的表达式组成的,这些表达式共同组成了函数的主体:

golang-funcdecl-struct

图 2-9 Go 语言函数定义的结构体

函数的主体其实就是一个 Stmt 数组,Stmt 是一个接口,实现该接口的类型其实也非常多,总共有 14 种不同类型的 Stmt 实现:

golang-statement

图 2-9 Go 语言的 14 种声明

这些不同类型的 Stmt 构成了全部命令式的 Go 语言代码,从中我们可以看到非常多熟悉的控制结构,例如 ifforswitchselect,这些命令式的结构在其他的编程语言中也非常常见。

2.2.3 小结

这一节介绍了 Go 语言的词法分析和语法分析过程,我们不仅从理论的层面介绍了词法和语法分析的原理,还从 Golang 的源代码出发详细分析 Go 语言的编译器是如何在底层实现词法和语法解析功能的。

了解 Go 语言的词法分析器 scanner 和语法分析器 parser 让我们对解析器处理源代码的过程有着比较清楚的认识,同时我们也在 Go 语言的文法和语法分析器中找到了熟悉的关键字和语法结构,加深了对 Go 语言的理解。


wechat-account-qrcode

本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可。