通过CTranslate2 能够实现加速模型推理,降低transformer在内存中的使用。
CTranslate2 目前支持的模型:
Transformer base/big, M2M-100, NLLB, BART, mBART, Pegasus, T5, Whisper
GPT-2, GPT-J, GPT-NeoX, OPT, BLOOM, MPT, LLaMa
如何使用
pip install ctranslate2
translator = ctranslate2.Translator(translation_model_path)
translator.translate_batch(tokens)
generator = ctranslate2.Generator(generation_model_path)
generator.generate_batch(start_tokens)
BLOOM模型
ct2-transformers-converter --model