第一章绪论

1. 什么是编译

1.1 语言和编译

机器语言：计算机可以直接识别的语言，由0和1组成。例如：C706 0000 0002

缺点：不容易理解；不易编写；易错

汇编语言：引入了助记符。例如：MOV X, 2

优点：比较形象直观

缺点：依赖于特定的机器，不同的机器助记符不同，导致程序员必须记住相应机器的助记符；

编写效率低，一条简单的语句，也需要好几条指令

高级语言：类似于数学定义式或自然语言的简介形式。例如：x = 2

优点：接近人类的表达习惯；不依赖特定机器；编写效率高

最终，汇编语言和高级语言都要翻译成机器可以识别的机器语言

汇编语言 -> 机器语言（汇编）
高级语言 -> 汇编语言/机器语言（编译）

编译：将高级语言（源语言）翻译成汇编语言或机器语言（目标语言）的过程

1.2 编译器的位置

预处理器：把存储在不同文件中的源程序聚合在一起；把被称为宏的缩写语句转换成原始语句

可重定位：在内存中存放的起始位置L不是固定的，绝对地址 = 起始位置 + 相对地址

加载器：修改可重定位地址，将修改后的指令和数据放到内存中适当的位置

链接器：将多个可重定位的机器代码文件（包括库文件）连接到一起；解决外部内存地址的问题（一个文件可能会引用另一个文件中的数据对象或过程，这些数据对象或过程相对于这个文件来说就是外部内存地址）

2. 编译系统的结构

3. 词法分析

主要任务：从左向右逐行扫描源程序的字符，识别出各个单词，确定单词的类型。将识别出的单词转换成同一的机内表达 —— 词法单元（token）形式

token：<种别码，属性值>

单词类型

种别

种别码

关键字

program、if、else、then、...

一词一码

标识符

变量名、数组名、记录名、过程名、...

多词一码

常量

整型、浮点型、字符型、布尔型、...

一型一码

运算符

算术（+ - * / ++ --）

关系（> < == != >= <=）

逻辑（& | ~）

一词一码

或

一型一码

界限符

; ( ) = { } ...

一词一码

例子：

4. 语法分析

语法分析器从词法分析器输出的token序列中识别出各类短语，并构造语法分析树

语法分析树描述了句子的语法结构

5. 语义分析

主要任务：

收集标识符的属性信息
- 种属（Kind）
  - 简单标量、复合变量（数组、记录、...）、过程、...
- 类型（Type）
  - 整型、实型、字符型、布尔型、指针型、...
- 存储位置、长度
- 值
- 作用域
- 参数和返回值信息
  - 参数个数、参数类型、参数传递方式、返回值类型、...
语义检查
- 变量或过程未经声明就使用
- 变量或过程名重复声明
- 运算分量类型不匹配
- 操作符与操作数之间的类型不匹配
  - 数组下标不是整数
  - 对非数组变量使用数组访问操作符
  - 对非过程名使用过程调用操作符
  - 过程调用的参数类型或数目不匹配
  - 函数返回类型有误