关于llm的部署，一... - @zhpmatrix的微博 - 微博

关于llm的部署，一些心得。
关心的问题是啥？
（1）我们可以同时服务的用户数是多少（吞吐量）
（2）我们平均为每个用户服务的时间是多少（延迟）
思考角度：多层次的优化，包括模型+框架+硬件+编程语言
目前心中的优先级：fastertransformer(nv的工作)>tgi（huggingface的推理端）/lightllm（商汤的工

返回最新资讯列表

关于llm的部署，一... - @zhpmatrix的微博 - 微博

相关工具