最近尝试用1.3b的llama2 dense模型,在总22层的第2层和第10层增加engram模块,engram词表每层设置32000,这样用1t的RedPajama数据集按gbs2048训练了30000步,发现loss曲线会优于未加engram模块的1.3b模型,但是用opencompass尝试评测了piqa,siqa,ARC_e,hellaswag数据集发现评测效果不如1.3b的基线模型,
一个猜想是因为前期训练量太小导致engram的词表没学好反而起了负作用吗,会不会在训练后期变好呢;
还有个猜想是engram词表空间大小设置不够大导致?
或者是engram模块就不适合用于纯dense模型?
此外还有个问题,对于padid,在开源的推理代码中,engram模块中的padid固定设置了2,是和原始tokennizer的保持了一致吗;如果没有保持一致,会对训练和推理产生明显影响吗;
最近尝试用1.3b的llama2 dense模型,在总22层的第2层和第10层增加engram模块,engram词表每层设置32000,这样用1t的RedPajama数据集按gbs2048训练了30000步,发现loss曲线会优于未加engram模块的1.3b模型,但是用opencompass尝试评测了piqa,siqa,ARC_e,hellaswag数据集发现评测效果不如1.3b的基线模型,
一个猜想是因为前期训练量太小导致engram的词表没学好反而起了负作用吗,会不会在训练后期变好呢;
还有个猜想是engram词表空间大小设置不够大导致?
或者是engram模块就不适合用于纯dense模型?
此外还有个问题,对于padid,在开源的推理代码中,engram模块中的padid固定设置了2,是和原始tokennizer的保持了一致吗;如果没有保持一致,会对训练和推理产生明显影响吗;