公式4的o_i 第k个位置的log,是只计算第k个token对应位置loss得到,还是算完整序列的loss得到,公式最后有个k i 上下标我猜是前者
公式4的o_i 第k个位置的log,是只计算第k个token对应位置loss得到,还是算完整序列的loss得到,公式最后有个k i 上下标我猜是前者