关于llm的部署,一些心得。 关心的问题是啥? (1)我们可以同时服务的用户数是多少(吞吐量) (2)我们平均为每个用户服务的时间是多少(延迟) 思考角度:多层次的优化,包括模型+框架+硬件+编程语言 目前心中的优先级:fastertransformer(nv的工作)>tgi(huggingface的推理端)/lightllm(商汤的工作)>vllm 针 登录后可查看完整内容,参与讨论! 立即登录