engram训练loss更低但是评测差的问题

最近尝试用1.3b的llama2 dense模型，在总22层的第2层和第10层增加engram模块，engram词表每层设置32000，这样用1t的RedPajama数据集按gbs2048训练了30000步，发现loss曲线会优于未加engram模块的1.3b模型，但是用opencompass尝试评测了piqa，siqa，ARC_e，hellaswag数据集发现评测效果不如1.3b的基线模型，
一个猜想是因为前期训练量太小导致engram的词表没学好反而起了负作用吗，会不会在训练后期变好呢；
还有个猜想是engram词表空间大小设置不够大导致？
或者是engram模块就不适合用于纯dense模型？
此外还有个问题，对于padid，在开源的推理代码中，engram模块中的padid固定设置了2，是和原始tokennizer的保持了一致吗；如果没有保持一致，会对训练和推理产生明显影响吗；