四川宜宾警方通报“159瓶茅台被跨省扣押3年后多瓶失踪”
四川宜宾警方通报“159瓶茅台被跨省扣押3年后多瓶失踪”
5 月 27 日,小米宣布 mimo-v2.5 系列大模型 api 价格体系进行永久性调价,最高降幅度达 99%,且不再区分上下文长度。具体来看 mimo-v2.5-pro:百万 tokens 输入(缓存命中)只需要 0.025 元。百万 tokens 输入(缓存未命中)3 元。百万 tokens 输出 6 元。不仅如此,token plan 方面,小米采取 " 加量不加价 " 策略,用户在 agent 或 code 场景下的可用 token 数量将提升至原来的 5-8 倍,并把规则调整为 " 所见即所得 ",简化了因换算导致的复杂计价逻辑。这是继 deepseek 上周宣布 v4-pro 永久降价至原价 25% 之后,国内头部大模型在短短一周内的又一次重磅价格调整。国际比较看,deepseek 与小米的最新定价已显著低于主流海外厂商。国际主流模型方面,openai gpt-4o 的标准输入价格为每百万 tokens 2.5 美元,输出价格为 10 美元;claude sonnet 4.6 的输入为每百万 tokens 3 美元,输出为 15 美元。与简单的 " 烧钱 " 不同,小米此次降价的逻辑指向工程层面的成本结构优化。据小米解释,基于 sglang hicache 完整支持 swa(sliding window attention),将 kv cache 在 gpu 显存、cpu 内存、ssd 等多级存储之间的数据搬运量降低至优化前的近 1/7,并将可缓存 token 数量提升至优化前的近 5 倍,显著提升了缓存命中率和推理效率。此外,小米还通过优化专家方案、输入长度分桶策略等手段,进一步提升集群输入吞吐能力。这与 deepseek 的降价逻辑一脉相承,都是通过架构创新以及推理系统的工程化优化,结构性地压低单位 token 服务成本,再将红利让渡给开发者。从行业情况来看,本轮国产大模型降价潮亦是伴随着应用方需求的变化,随着大模型正在从 " 聊天 " 进入 " 干活 " 的阶段,真正让开发者和企业用户焦虑的也不再只是一次问答金额,而是 agent 在多轮推理、调用和自动化成本工作流等过程中持续燃烧的 token。当百万 tokens 价格被不断压低,国内大模型的竞争也会继续向下游传导。对于开发者来说,成本下降意味着更多 agent 等应用供给会迎来井喷;对于厂商来说,低价背后则是更高的推理效率、更强的算力调度能力,以及更长周期的生态投入。价格战未必能直接决定谁的模型最强,但可以推动其更快地被开发者调用,小米 mimo 此时大幅降价正是国内大模型走向 " 规模化使用 " 的又一个注脚。