谷歌近日宣布,其Gemini API将新增两种服务层级——Flex Inference与Priority Inference,旨在为开发者提供更灵活的成本与性能管理方案。这一调整允许开发者根据任务需求动态选择推理优先级,通过统一接口实现不同场景下的优化配置,无需再为同步与异步任务设计复杂架构。
AIPress.com.cn报道 4月3日消息,谷歌宣布为Gemini API新增两种服务层级,Flex Inference与Priority Inference,以帮助开发者在成本与系统可靠性之间进行更精细的权衡。新机制通过统一接口实现,使开发者能够根据不同任务需求动态调整推理优先级。