During debugging we spent A LOT of time seeing this:
The class this function is called from is 'LlamaTokenizerFast'.
Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1657/1657 [00:13<00:00, 123.16it/s]
To speedup an iteration cycle it is good to have dummy tokenizer, which would just return random data.
During debugging we spent A LOT of time seeing this:
The class this function is called from is 'LlamaTokenizerFast'.
Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1657/1657 [00:13<00:00, 123.16it/s]
To speedup an iteration cycle it is good to have dummy tokenizer, which would just return random data.