Skip to content

engram训练loss更低但是评测差的问题 #20

@fate08301017

Description

@fate08301017

最近尝试用1.3b的llama2 dense模型,在总22层的第2层和第10层增加engram模块,engram词表每层设置32000,这样用1t的RedPajama数据集按gbs2048训练了30000步,发现loss曲线会优于未加engram模块的1.3b模型,但是用opencompass尝试评测了piqa,siqa,ARC_e,hellaswag数据集发现评测效果不如1.3b的基线模型,
一个猜想是因为前期训练量太小导致engram的词表没学好反而起了负作用吗,会不会在训练后期变好呢;
还有个猜想是engram词表空间大小设置不够大导致?
或者是engram模块就不适合用于纯dense模型?
此外还有个问题,对于padid,在开源的推理代码中,engram模块中的padid固定设置了2,是和原始tokennizer的保持了一致吗;如果没有保持一致,会对训练和推理产生明显影响吗;

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions