各位 AI 大佬，请教一下私有化部署 AI 模型的问题?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

各位 AI 大佬，有个些问题想请教一下：公司现在想做 AI 方面的一些使用，肯定不会训练，只是私有化部署一些现成的开源模型，现在主要的工作可能是，分析 PDF, WORD ，图片，Excel 等格式的文件，提取里面的信息，做一些分析，比如财务指标，标书中的一些关键信息查重等,自己感觉工作不多，但可能文件比较大，比如标书有时可能几千页，但一般情况下就 200 页左右。因为资料要求保密，所以只能做私有些部署。人数不多，也不会太频繁使用。
我现在使用过豆包之类的工具，其它的 AI 方面都不会。现在有以下的问题：
1. 要达到一般豆包之类的这些功能的 70%，不要太差劲，现在的那些开源模型能做到？一般要多少参数及位数？
2. 要达到 1 的要求买什么主机及显卡，对显存要求如何？ AMD HX395 之类的主机能达到吗？如果不行，买 5090 显卡，还是一些 AI 工作站的 A1000-A4000 之类的显卡？显存多大合适?显存不够的话，以后可以通过多个显卡来扩展吗？
因为是新手，所以问题比较基础，在网上也没有搜索到比较合适的答案，希望能得到一些指导，谢谢各位 AI 大佬！

AI模型部署

文件分析

隐私保护

22 条回复 • 2025-12-06 13:27:12 +08:00

senjyougahara

2 天前

这种事问 AI 吧一般都得训练才能得出比较有效的结果，不想训练结果偏离会比较大

crackidz

2 天前

1. 你自己可以看一下一些多模态开源模型 https://lmarena.ai/leaderboard/vision 从这里从上到下找吧，实在不行就自己几个模型组合在一起
2. 部署如果不选择量化模型（最好也是不量化的版本），可以找个网页计算器算一下，这种挺多的工具。显卡自然选支持 NVLink 扩展的，但你什么都不懂，要不找个实施公司直接报价吧

bzj

2 天前

这种基础任务，随便找个开源的多模态大模型，32b 以内，用 4090 显卡就行，直接 ollama 安装，不需要训练，适当调下参数，不会代码可以私有化装个 dify ，或者工作流实现，先用 ocr 大模型识别文档，提取出内容再用语言大模型分析

zisen

2 天前

我稍微研究过这个 ai 知识库，以下是我的拙见：
这种公司内部 ai 一般是这个流程：
用户问问题：“2025 年第一季度盈利百分比”
大模型（ deepseek 之类的）收到问题，将问题转化为更准确的关键词，然后去后台调用知识库，知识库返回搜索结果，然后大模型结合搜索结果和用户问题，进行回答
所谓知识库，就是输入一个关键词，返回搜索结果，本质上就是搜索引擎，如果你对搜索引擎比较熟悉的话，可以直接用搜索引擎来实现知识库
另一种比较流行的就是将所有文档全部转换为图片，然后 ocr ，之后向量化，你可以向量化模型对这些文本进行处理例如 text-embedding-bge-large-zh-v1.5 ，可以参考这篇博文 https://gameapp.club/post/2025-04-02-embedding-compare/
最后就是向量化的知识库需要的显存并不大，但是前端对话的大模型是需要大显存的，你可以搜一下主流大模型的显存和算力要求
最后一点，其实部署完发现不咋滴，不如直接最原始的文档搜索引擎去搜关键词然后找对应文档去看，这里的向量化知识库本质上只是加强版的搜索引擎，所以你可以使用大模型前端对话外加后端搜索引擎搜索文档文本内容
如果有说的不对的请评论区大佬指正

EastHorse

2 天前

1.首先要说目标人群是哪些？是财务小白只会点点点操作的那种吗？
2.再看预算多大，确定了再看能使用什么参数的模型

coldfannn

2 天前

先别急着花钱，现在私有部署模型几乎是傻瓜式的，可以搜一下 ollama 部署，模型的話视图就先选择 qwen3-vl ，6b-8b 规格正常你的电脑主机有块像样的独显基本就可以看效果了
根据识别速度和精度，对比你当前的硬件配置，决定你要买什么设备，想要单任务快就买高算力，想要提升并行就买高显存、高带宽，精度不够就加参数数量
从你的需求来看，我觉得 qwenvl-32b 这个基本完全足够了，有些识图效果更好的还得花钱没什么太大必要。用的人不多但单文件 200 页，个人感觉你买的这些 ai 工作站其实能力都超标不少了。一台搭载 4060-4070 能力的个人主机基本都能完成这个工作，当然了，公司不差钱的话当我没说。
总之先别急着花钱，自己部署了观察再做决定

cnhongwei

2 天前

谢谢各位，补充一下。
1. 目标人群就是普通的财务人员，作类似审计之类的工作，因为人员审核这些资料很费时间，所以想先通过 AI 来过滤一些常见的有问题点，比如，两个标书中有两个人的身份证相同，得先把所有人的身份证号提取出来，再做比较，所以想看看 AI 能实现不？比如让 AI 检查错别字等，大部分文档是电子档，只是少量是扫描档，OCR 不是重点。
2. 预算，预估 5 万以内

gether1ner

2 天前

@cnhongwei 本地部署难度不大，具体的我也不太懂，感觉上面的已经给出方向答案了

我这也可以提供个 ai 接口的平台，拉点测试金给你前期测试使用

kelvin_fly

2 天前

主要是业务需求，可能达不到你的预期。可以先围绕关键词 RAG 了解下优缺点，部署这些都比较容易

oom

2 天前

PDF, WORD ，Excel 200 页左右哪个模型也顶不住啊，你测试了没，token 会超过吧

Mzs

2 天前

先完成业务 mvp 再考虑私有化的事情

yplam

2 天前

没有真正本地部署过，只是个人理解：RAG 工作流应该 5090 可以胜任，做一些 OCR ，Embedding ，检索生成之类的，应该不少开源模型可以用；如果要做出交互式的 AI Agent ，则与用户交互的 LLM 必须具备格式化返回的能力（譬如稳定的 JSON functionCall 输出），则建议先测试一下，譬如 Qwen3-Coder 之类，看哪个级别的模型能满足需求，然后再考虑部署的硬件

slowgen

2 天前

去 https://chat.qwen.ai/ 和 https://chat.z.ai/ 选择带 V 型号的模型，把脱敏或者不重要的图片丢进去问，如果能满足需求就可以按照这些模型大小买硬件。

OCR 能力可以体验 https://huggingface.co/spaces/tencent/HunyuanOCR ( https://huggingface.co/tencent/HunyuanOCR ) 和 https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo ( https://huggingface.co/PaddlePaddle/PaddleOCR-VL ) ，不到 1B ，是个电脑都能跑。

5w 以内能买的性价比最高就是 192GB 的官方翻新的 Mac Studio Apple M2 Ultra (24 核 CPU + 60 核的 GPU)那款，跑个 gpt-oss-120B 和 Qwen3-Next-80B-A3B 都很轻松，再跑一个带视觉能力的模型就可以了，2 个模型同时加载也不会爆显存，一起干活挺快的，难度高点就跑 Qwen3-VL-235B-A22B 。192GB 统一内存的好处是未来出了新模型大概率也能跑，不像 4090 48GB,5090 32GB 这种要凑多卡容易爆预算加爆显存。

AMD 的 Max+ 395 这些的瓶颈在于内存带宽，太弱鸡了，能跑但是跑不快，速度只有 M2 Ultra 的 1/3 ，也就跑个 Qwen3-VL-30B-A3B ，如果你体验下来能满足的话，倒也不是不行。

MindMindMax

2 天前

预算 5w 人民币内，私有化搞不定的。拉到 20w 可以

littlefishzzz

2 天前

1. 数据：可以用脱敏后的资料或者生成/手写一些相近的资料用来测试，你的需求还是得实际跑一下试试
2. 模型：模型可以用 Qwen 等常用的开源模型，从小参数量的开始测试，不满意的话就换大一点的模型，一直试到效果满意，或者用 MinerU 之类的模型先做提取，再发给模型
3. 部署：测试可以先用 huggingface/modelscope 之类已经部署好的 demo ，或者租用 GPU 服务器自己部署模型或是 dify 等平台，不同型号的 GPU 都可以试试，一小时几块钱很便宜

laminux29

2 天前

1.受限于显存，目前几千页的纯文字文档，无法做 AI 精准分析。地球上最强的闭源 AI 都做不到。几百页的纯文字文档，用关键字提取的方式，才有一定的 AI 分析可能，但精准度也无法做到 100%，需要自建图形数据库 + ES 集群来辅助。精准度的意思是，文字一旦数量过多，AI 容易忘记细节，容易产生幻觉。等以后显存能以指数级增长后，这个问题才能被逐步解决。

2.大部分开源模型的能力都很强，但现在不是模型的问题，而是显存的问题。

3.达到豆包 70% 功能，你至少需要 1 台非量化的 AI 一体机。纯文字版的价格在 120W 以上，图形视觉版本价格再翻 3 倍，之所以这么贵，是因为需要考虑同时使用人数，以及每个 chat 的文字生成速度。这是几大运营商的 AI 研究中心提供的报价，很多体制内的单位已经用上了。

4.AMD HX395 、5090 ，这些硬件只是玩具，达不到你要的效果。

5.5 万元预算更是搞笑，5 万元预算你给小公司买豆包 API 都有可能不够用，更别提私有化部署。

cnhongwei

2 天前

谢谢上面的大佬们了，主要是资料敏感，不太好去云平台上试试，5 万主要是想，如果买了有问题，丢掉了不心疼，20 万到几百万，对小公司来说，这样的投入，没有成果的话，风险感觉太高。看来文档太大，低成本 AI 处理还是有些问题，只能看看能不能通过程序处理后，来单页处理，再合并处理结果。

cKnight

2 天前

我自己做的话会分两步走。1.洗数据，把非结构化的数据通过工作流洗成结构化的数据，存入数据库。2.解析，部署轻量化本地 LLM ，让他对库里的结构化数据进行解析。若使用方是非技术人员可做一个简单的 web 页面，调用本地 LLM 即可。个人感觉这方案 5W 是可以的。

cKnight

2 天前

@cKnight 还有一点。若本地的 LLM 不够聪明解做不了解析工作，可以使用 [剧本] 模式处理。先调用外部大模型的 API ，不用发具体数据，而是发你的数据结构和需求。让它完成整体的步骤，比如这个解析需求整体又有哪些步骤，每个步骤调用那些方法。然后再把剧本发给本地的 LLM ，让它按照剧本走，这样应该可以。

chspy

2 天前

直接找个相关的网站去咨询，还能看看报价，可以看下 PPIO

uni

1 天前

我之前测试过，还是得用最好的模型，直接上 h200 了，整台服务器一百多万吧，其他模型达不到我们想要的效果

coefu

22 分钟前

@cnhongwei #17 5w 肯定够的，只是你技术够不够支撑这个预算。nvidia dgx spark 3w 左右，用来跑 30B 的模型绰绰有余，再花个 2w 组装一台 2*3090ti 24G （ 1.5w 左右，剩下用来主板 CPU ）用来做 RAG 。