论文中提到在PPO流程中可以固定其他模型，先训练reward model直到value loss为0，请问这边具体是怎么进行训练的呢？ #52

Open

opened

No description provided.

Metadata

Assignees

No one assigned

Labels

No labels

No labels

Type

No type

Fields

No fields configured for issues without a type.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests