关于llm的部署,一... - @zhpmatrix的微博 - 微博

关于llm的部署,一些心得。
关心的问题是啥?
(1)我们可以同时服务的用户数是多少(吞吐量)
(2)我们平均为每个用户服务的时间是多少(延迟)
思考角度:多层次的优化,包括模型+框架+硬件+编程语言
目前心中的优先级:fastertransformer(nv的工作)>tgi(huggingface的推理端)/lightllm(商汤的工作)>vllm