最近我自己接 Java 项目里的 AI 功能,主要需求并不复杂:从文章里提取关键词、打标签、做一点内容评审,偶尔把结果整理成 JSON。看起来应该找一个“免费 AI API”就行,但真正动手以后会发现,这里面最容易混淆的是两件事:免费额度和不需要 Key。
简单说,云端模型即使标了免费,通常也还是要注册账号、创建 API Key,再按平台限流规则调用;真正不需要 Key 的,基本都是你本机或内网自己跑起来的模型服务。
先给结论
如果只是个人项目、低频任务、希望先省钱验证,我会这样选:
- 本地电脑能跑模型:优先试 Ollama,不需要 Key,Java 通过 HTTP 或 Spring AI 接入都方便。
- 要云端稳定可用:用 GLM-4-Flash-250414 这类免费模型先跑通,但要接受它仍然需要 API Key。
- 需要更强推理和长上下文:GLM-4.7-Flash 参数更强,但我实测遇到过“访问量过大”的 429,先标记为“免费但拥挤,暂避”。
- 正式 Java 项目:Spring Boot 项目建议用 Spring AI;只是临时 demo 或单接口验证,用 JDK HttpClient、OkHttp 或 Spring
RestClient更轻。
“免费”不等于“不需要 Key”
智谱开放平台的免费模型页里,GLM-4.7-Flash、GLM-4-Flash-250414 等模型都放在“免费模型”分类下。但官方调用示例依然是通过 OpenAI 兼容接口,请求头里带 Authorization: Bearer your-api-key。
所以它的正确理解是:模型调用价格或额度策略可能免费,但身份认证、限流、审计仍然走平台账号体系。对个人开发者来说这没问题,配置一个环境变量即可;但如果你想找“完全不用 Key,代码里不用配置任何云账号”的方案,它不属于这一类。
真正不需要 Key 的方案
真正不需要 Key 的方案,通常是本地模型运行时。
最常见的是 Ollama。你在本机安装 Ollama,拉一个模型,比如 qwen3:4b、llama3.1、gemma3 之类,然后它会在本地暴露 http://localhost:11434。你的 Java 程序请求的是本机服务,不需要云端 API Key。
它的优点很直接:
- 没有云端 token 成本。
- 文章内容不出本机,隐私更好。
- 适合关键词提取、标签生成、摘要、简单分类这类低风险任务。
- 断网也能跑,只看本机性能。
它的缺点也要接受:
- 首次下载模型比较大。
- 速度取决于 CPU、内存和显卡。
- 小模型对复杂判断、强推理、长文章一致性不如云端大模型。
- 多人共享、生产部署时,仍然要自己做服务治理。
如果你的需求只是“从虚拟货币文章里提取关键词、风险标签、项目名、交易所名、情绪倾向”,Ollama 本地小模型完全值得先试。结果不够稳时,再切云端模型补一层。
智谱免费模型怎么用
目前我会把智谱免费模型分成两档:
第一档是 GLM-4-Flash-250414。它更适合做稳定的文本处理入口,比如摘要、实体抽取、关键词、标签、JSON 结构化输出。官方文档也把它放在智能问答、摘要生成、文本数据处理等场景里。对你的 Java 项目来说,这个模型可以先作为默认云端模型。
第二档是 GLM-4.7-Flash。它的参数和能力明显更强,官方页写到 200K 上下文、128K 最大输出,并强调 Agentic Coding、工具调用、结构化输出等能力。问题是免费模型越强,越容易拥挤。我之前调用时遇到过返回:
{
"code": "1305",
"message": "该模型当前访问量过大,请您稍后再试"
}
所以我会给它打一个标签:免费但拥挤,暂避。不是说它不好,而是不适合作为现在项目里的唯一默认模型。更稳的做法是:默认用 GLM-4-Flash-250414;如果后面 GLM-4.7-Flash 调用稳定,再把它作为增强模型或手动切换模型。
Java 项目接入建议
如果只是为了快速验证,可以先不用上完整框架,直接写一个客户端:
record ArticleTagRequest(String title, String content) {}
record ArticleTagResult(
List<String> keywords,
List<String> topics,
String sentiment,
String riskLevel
) {}
提示词里要求模型只输出 JSON,再用 Jackson 解析。关键词、标签、风险等级这类任务,最怕模型多说废话,所以要把输出 schema 写清楚。
如果项目会长期维护,我更建议用 Spring AI。它不是某一家模型公司的 SDK,而是 Spring 生态里统一接入 AI 模型的项目。它已经有 Ollama、OpenAI、ZhiPu AI、Google、Groq、Hugging Face 等多种模型集成。好处是你后面切模型时,不需要把业务层全部重写。
例如:
- 本地无 Key:
spring-ai-starter-model-ollama - 智谱云端:Spring AI 的 ZhiPu AI Chat 集成
- 其他 OpenAI 兼容平台:走 Spring AI OpenAI 兼容接入
对 Spring Boot 项目来说,这种方式更适合把模型能力封装成一个 ArticleTagService,上层业务只关心“输入文章,输出标签结果”,底层用哪个模型可以通过配置切换。
我的推荐组合
如果是我现在做一个虚拟货币文章处理项目,会按这个组合来:
- 本地开发默认 Ollama,模型先用
qwen3:4b或同级别小模型,做关键词、标签、情绪倾向的低成本验证。 - 云端默认 GLM-4-Flash-250414,用来处理本地模型不稳的文章,或者需要更好中文理解的内容。
- GLM-4.7-Flash 暂时保留配置项,但标记为“免费但拥挤,暂避”,不放到默认链路里。
- 输出统一走 JSON schema,不让业务层解析自然语言。
- 所有模型调用都加超时、重试上限、失败降级和原始响应审计。
这样做的好处是,成本不会一开始就失控,也不会被某一个免费模型的限流卡死。后面如果流量上来了,再决定是买正式额度、换更便宜的云模型,还是把本地模型部署到一台固定机器上。
参考链接
小结
选免费 AI API 时,先问一句:我要的是“免费额度”,还是“完全不需要 Key”?
如果要完全不需要 Key,优先看 Ollama、LM Studio 这类本地服务;如果能接受云端账号和 API Key,智谱免费模型可以作为 Java 项目的低成本入口。对关键词提取、文章标签、内容评审这类任务,我建议先用 Ollama 做本地验证,再用 GLM-4-Flash-250414 做云端兜底,GLM-4.7-Flash 暂时不要放默认链路。




