分享
「草莓」实测:可能只是工程 Trick,且有扣费陷阱!
输入“/”快速插入内容
「草莓」实测:可能只是工程 Trick,且有扣费陷阱!
飞书用户2749
2024年9月13日修改
写在前面
:
实际测试 OpenAI 新发布的「草莓」后,发现问题很多
。
在本篇中,我将分几个章节,来进行全面解读,包括:
•
效果与特性
•
价格与限制
•
实现原理
•
一些判断
长话短说
中国时间 9 月 13 日凌晨,OpenAI 发布了 o1 系列模型,包括 o1-preview 和 o1-mini,官方称其为「草莓」。《
OpenAI「草莓」今秋发布,随后是「猎户座」
》
从 OpenAI 公布的数据来看,
o1 在 STEM(理工科)领域进行了特别优化,在回答之前会进行思考
。在物理、生物和化学问题(GPQA)的基准测试中超越了人类博士水平的准确性。
Plus 和 Team 的用户可在 ChatGPT 中访问
,o1-preview 限制在了 30 条/周,o1-mini 限制在了 50 条/周
T5 级别的开发者可以访问其 API
,每分钟最多20并发,且价格昂贵。
目前,
这个模型还是个半成品,并没有工程化完整
:在 ChatGPT 里不支持联网、画图等功能;在 API 里不支持 system、tool 等字段和 json mode、结构化输出等方法。
同时,
这个模型有坑 - 你可能会被百倍计费
:从 pricing table 上看,o1 的价格是 4o 的 6 倍,但这是有迷惑性的!o1 计费并不按最终输出,其中间思考过程所消耗的 token,并被视作 output tokens,这意味着 100 tokens 的内容输出,可能会被按 10000 tokens 计费。
这个
模型说是有 32k/64k 的最大输出,但真实输出远没有这么多
。
从实际测试的角度,发现 o1 与其说是一个模型,不如说是
基于 gpt-4o 的 agent,并且做的并不好
。
进行 structured 输出时,400 报错
首先,o1 模型是 OpenAI 官方认定的「草莓🍓」
其次,奥特曼对此很满意