java语法-基于语法树的 Java 代码自动化插桩

代码插桩是测试和定位问题的常用手段，通过在代码对应位置插入相应的代码（“桩”），来打印或收集我们所需要的数据。

自动化插桩，也就是在代码的特定位置，自动的插入我们需要的一行或几行代码。通常我们会在编译后的代码上进行插桩，这样做好处就是避免了对源码的侵入，一定程度上屏蔽了开发者不同的代码风格。这里，我们主要介绍另一种在源码上插桩的方式，如果不考虑对代码的侵入性，那么在源码上直接插桩会更加直观，也就更加容易把控和调试，具有更高的灵活性，而且本文将要介绍的这种方法也无须考虑不同的代码风格。

插桩需求

以一段结构比较简单的Java代码为例，假设我们有一个后缀名为".java"的源码文件，需要在里面的每个方法的开头插入一行代码打印当前方法的名字，在代码执行时，让我们能够知道哪个方法被调用过，以便绘制整个工程的调用关系图。文件中的源码如下：

package com.ast.pkg;
public class ASTDemo {
    int intData = 0;
    double floatData = 0;
    String strData = "";
    //construction
    public ASTDemo() {
        this.intData = 123;
        this.floatData = 3.14;
        this.strData = "It's been a long time.";
    }
    public void setIntData(int data) {
        this.intData = data;
    }
    public String getStrData() {
        return this.strData;
    }
    public void methodDemo(String param1, String param2) {
        if (null == param1 || null == param2) {
            return;
        }
        if (param1.length() > param2.length()) {
            strData = strData + param1;
        } else {
            strData = strData + param2;
        }
    }
}

显然，我们不可能直接插桩，因为那样即便是你能准确的定位到每个方法的第一行，仍然不具有通用性，同样的代码换一个写法，或者增加一些复杂的代码结构，再或者换个书写习惯，不仅无法识别代码第一行java语法，即便是再开发，也非常复杂。接下来我们换个思路进行插桩。

Java代码组成

在这里我们需要探究的是Java代码是如何构成的，或者说一个后缀名为".java"的文件里，都包含了怎样的语句和结构。例如在上述代码中，可以很直观的看到，它包含：

从根节点开始一层一层的将所有代码都包含进来。完整且清晰的表示了这部分代码和它们之间的关系。

抽象语法树

上面这棵"树"是一种非常直观的方式java语法，但也说明了代码是可以抽象成树的形式表示的。接下来我们以更细的粒度再绘制这棵树。

抽象语法树（AST）是源码语法结构的一种抽象表示，它以树状的形式表现代码的结构。实际上已经提供了源码的AST表示，以帮助开发者更加完整、清晰的分析代码的结构和关系。

在这里我们要实现的是自动化插桩，也就是说我们需要实时分析代码结构，然后在正确的位置插入准备好的代码，并且保证插桩后的代码能够被编译、执行。

我们使用来对源码进行处理，它是一个比较通用的代码分析工具。通过的解析，我们将会得到一个".java"文件的抽象语法树。参考如下步骤：

1）引用

创建项目工程后，引入，Maven或均可：


    com.github.javaparser
    javaparser-core-serialization
    3.6.5


    com.github.javaparser
    javaparser-core
    3.6.5

implementation 'com.github.javaparser:javaparser-symbol-solver-core:3.6.5'
implementation 'com.github.javaparser:javaparser-core:3.6.5'

注意引用版本不要低于3.6.4，否则会出现各种疑难杂问题。

2）解析Java源码

依赖工具，我们只需要传入".java"文件的输入流，就可以完成对源码的解析。

String javaFilePath = "ASTDemo.java";
FileInputStream in = null;
        
try {
    in = new FileInputStream(javaFilePath);
    CompilationUnit compilationUnit =   JavaParser.parse(in);
} catch (FileNotFoundException e) {
    e.printStackTrace();
} finally {
    if (null != in) {
        try {
            in.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

中的parse方法，会依据源码生成代码树，并以类型返回。类位于com...ast包下面，正常引入就可以使用。通过打断点的形式，我们观察一下该对象的构成：

对于树形结构，我们最容易理解的属性就是了，在根节点上有两个子节点，一个是所属包名，一个是类，类节点下又包含七个子节点，除了类名节点外，另外6个节点分别代表了三个类属性变量，一个构造方法和三个普通方法。

具体到某一个方法，以(, )为例，它有5个子节点：

分别是方法名，两个参数，返回值和方法体，我们都知道，该方法体内的代码为：

if (null == param1 || null == param2) {
    return;
}
if (param1.length() > param2.length()) {
    strData = strData + param1;
} else {
    strData = strData + param2;
}

继续向内跟踪，方法体节点下有两个子节点，分别代表了两个if

以此类推，细化到某一语句时，仍然是类似结构，例如赋值语句 = + ; 以该语句为一个根节点包含两个子节点，分别是赋值符的左边和右边：

"="作为一种“赋值()”操作，保存在根节点的属性中：

同理对于"="右侧，有两个节点和，以及标识PLUS操作的属性：

可以看出抽象语法树中包含了源码的全部信息，在这棵树上，我们能够准确的定位到任何我们需要识别的代码结构。

遍历语法树

回忆一下我们的需求：在每个方法的第一行插入打印日志的语句。所以我们首先需要找到“每个方法”。对于抽象语法树来说也就是找到所有的方法节点，很自然的我们想到遍历这棵树。

代码结构

节点类型

类属性变量

构造方法

普通方法