从BERT改到XLM-Roberta时,出现该报错,上网查了半天,可能原因如下:

  • CUDA内存溢出:通过改小batch_size无效;
  • tokenizer和language model不匹配:经检查代码,发现匹配无误;
  • 维度存在不一致:经检查代码,类别数、隐向量和词向量维度都是正确的;
  • cuda版本问题:由于是改代码,前面代码未出现该问题,因此不考虑该假设。

后将cuda改为device = 'cpu'模式,发现报错为index溢出,定位错误在tokenizer,经检查发现是BERT和XLM的tokenizer中的pad_token_id是不同的,前者为0,后者为1,改正后,即可运行。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐