Skip to content

SFT阶段的训练数据的和RL阶段的ndcg和kl #12

@lianoid

Description

@lianoid

你好。关注到这篇论文的方法设计非常巧妙。有2个问题请教下:

  1. SFT的训练数据是仅使用了pointwise构造的数据,还是会使用pointwise和listwise融合后的数据?
    如果使用融合后的数据,这里的Sgt分数似乎物理意义有些问题,因为listwise的Score本身无物理意义。这里物理意义是指融合的分与SFT Prompt中的0~10分的定义可能有差别。

  2. RL阶段的KL奖励,是对policy模型rollout出的20个doc的score做softmax,与20个融合分过softmax后进行KL计算吗? ndcg奖励的real score是用的Sgt吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions