论文中我看到的FFN是FFN(X) = ReLU(XW1)W2,为什么在代码中的_ffn_layer 中的linear 函数里会有tf.nn.convolution?只有_linear_2d 没有卷积函数 其他的都有