Google 发布 Gemini3.1Flash-Lite，高速低价将如何影响 AI 市场？

Google 刚发布了 Gemini 3 系列的最新成员， Gemini 3.1 Flash-Lite ，主打一个又快又便宜。这个模型有多快呢？输出速度达到了 363 tokens/秒，而上一代 Gemini 2.5 Flash 是 249 tokens/秒，直接快了 45% 。首个 token 的响应速度更是提升了 2.5 倍。简单说就是，你话还没问完，它答案都快出来了。快就算了，价格还降了。输入 $0.25/百万 tokens ，输出 $1.50/百万 tokens 。跟上一代比，输入便宜了 17%，输出便宜了 40%。这个价格在当前的大模型市场里，已经属于「白菜价」级别了。Google 的意思很明确：大规模调用的场景，用这个就对了。便宜归便宜，但跑分并没有拉胯。在 Arena.ai 排行榜上拿了 1432 Elo ，几个关键基准测试的成绩： GPQA Diamond （科学知识）： 86.9% MMMU Pro （多模态推理）： 76.8% Video-MMMU （视频理解）： 84.8% MMMLU （多语言问答）： 88.9% LiveCodeBench （代码生成）： 72.0% Google 说它在推理和多模态理解上，超过了同级别的其他模型。考虑到它的价格，这个性价比确实有点离谱。 Gemini 3.1 Flash-Lite 有个有意思的功能：动态思考级别（dynamic thinking levels）。开发者可以根据任务复杂度来调整模型的推理深度。翻译、内容审核这种简单任务，用浅层推理就够了，省钱省时间。生成 UI 界面、跑模拟这种复杂任务，就让它深度思考。这就好比一个员工，简单活儿不磨蹭，难的活儿也能啃下来，自己知道什么时候该省力什么时候该拼命。模态方面，Gemini 3.1 Flash-Lite 支持 google 发布 gemini 3.1 flash-lite：每秒 363 tokens，百万 token 只要 $0.25

查看详情...