用了一台昇腾 910b 跑 qwen32b 的模型,
一个 dify 知识库的回答,跑 LLM 用了 30s ,这个正常吗?手头没有 H100 这样 nb 的机器。
1
guoguobaba OP |
2
oldlamp 111 天前
粗略来说,得看 tokens/s
|