跳转到主要内容
选模型不要从厂商开始。先从任务开始,再看质量、成本、速度和上下文长度。

30 秒选型

我要先跑通 API

选一个低成本文本模型,先调用 /v1/chat/completions

我要做代码或 Agent

优先看文本模型、代码能力、上下文长度和输出价格。

我要做知识库

使用 Embedding 做召回,再用 Rerank 提升结果排序。

我要做图片或视频

图片走图像接口,视频走任务流程。先确认模型类型和接口格式。

决策矩阵

场景优先级选择建议
首次接入成功率、低成本选低成本文本模型,先验证 API Key、Base URL 和请求格式。
客服和问答成本、稳定性、中文表现选中文表现稳定、输出价格可控的文本模型。
代码生成代码能力、上下文长度选代码能力强的文本模型。长仓库任务要看上下文长度。
长文档处理上下文长度、输入价格选长上下文模型,并减少无关输入。
RAG向量质量、排序质量Embedding 负责召回,Rerank 负责精排。
图片生成画面质量、风格控制创意视觉可看 Midjourney。OpenAI 兼容图片适合统一接口。
视频生成任务格式、时长、尺寸先选择 OpenAI 兼容视频或官方视频格式,再选模型。
成本敏感批处理输入 / 输出价格选择 mini、lite、flash 或轻量模型,并限制输出长度。

推荐流程

1

锁定接口

文本用 /v1/chat/completions,向量用 /v1/embeddings,排序用 /v1/rerank,图片用 /v1/images/generations,视频用 /v1/videos 或官方视频接口。
2

筛选用途

模型列表 中按文本、图像、向量、排序、音频、全模态、视频或工具筛选。
3

比较厂商

需要生态兼容时看 Open AI。需要中文、代码或本土能力时比较 DeepSeek、豆包、智谱、阿里、小米等。需要视频时比较可灵、Vidu、豆包、Google、Open AI。
4

看成本边界

输入很长时看输入价格。输出很长时看输出价格。视频任务看时长、尺寸和任务价格。
5

小流量验证

用少量请求验证质量、延迟和失败率,再扩大调用量。

模型名应该可替换

生产环境建议把模型名放在配置里。
AGICTO_CHAT_MODEL=MODEL_NAME
AGICTO_EMBEDDING_MODEL=MODEL_NAME
AGICTO_RERANK_MODEL=MODEL_NAME
AGICTO_IMAGE_MODEL=MODEL_NAME
AGICTO_VIDEO_MODEL=MODEL_NAME
调用时读取配置:
const completion = await client.chat.completions.create({
  model: process.env.AGICTO_CHAT_MODEL,
  messages: [
    {
      role: "user",
      content: "总结这段文本。"
    }
  ]
});

常见错误

Open AIGoogleDeepSeek 是厂商或筛选项,不一定是可调用的 model。请从模型列表复制完整模型名。
图片模型不能放进 /v1/chat/completions。视频模型通常需要任务接口。向量模型要用 /v1/embeddings
成本由模型单价、输入长度、输出长度和调用次数共同决定。长上下文任务尤其要关注输入价格。