生产人工智能中的成本问题
从原型转向生产通常会导致推理成本增加十到五十倍。令牌的使用会随着流量的增加而扩展,如果没有仔细的架构,每月的账单可能会很快超过系统产生的价值。
语义缓存
许多生产查询即使在词汇上不同,在语义上也是相似的。将传入查询的嵌入映射到先前响应的语义缓存可以消除百分之三十到百分之六十的冗余推理调用,同时对响应质量的影响最小。
模型路由
并非每个请求都需要前沿模型。轻量级分类器可以将简单的查询路由到更小、更便宜的模型,同时为真正复杂的任务保留昂贵的模型。这种分层方法通常可以降低百分之四十或更多的成本。
ActiveMotion Team
相关文章
评论
暂无评论。成为第一个评论的人!
分享到X