JavaScript 中的简单词法分析器：逐行解析源代码

2023-09-22 20:08:06

在编译器流程中，词法分析器扮演着至关重要的角色，它将源代码转换为一系列称为单词（token）的离散单位，以便语法分析器能够进一步处理。本文将介绍如何使用 JavaScript 实现一个简洁高效的词法分析器。

词法分析器的工作原理是逐行扫描源代码，将字符序列识别为各种单词类型，例如、运算符、标识符和界定符。JavaScript 中的正则表达式为我们提供了强大的模式匹配能力，这使得词法分析任务变得轻而易举。

const tokenPatterns = [
  [/\d+/, "NUMBER"],
  [/[a-zA-Z]+/, "IDENTIFIER"],
  [/=/, "ASSIGN"],
  [/\+/, "PLUS"],
  [/-/, "MINUS"],
  [/\*/, "MULTIPLY"],
  [/\//, "DIVIDE"],
  [/</, "LESS_THAN"],
  [/</, "GREATER_THAN"],
  [/==/, "EQUAL"],
  [/!=/, "NOT_EQUAL"],
  [/\(\)/, "PARENS"]
];

const tokenize = (sourceCode) => {
  let tokens = [];
  sourceCode.split('\n').forEach((line) => {
    line.split(' ').forEach((token) => {
      for (let pattern of tokenPatterns) {
        if (pattern[0].test(token)) {
          tokens.push({ type: pattern[1], value: token });
          break;
        }
      }
    });
  });
  return tokens;
};