第27期 AI行业周报（2024-12.16-12.22）

飞书用户2749

飞书用户9849

1月15日修改

OpenAI推出性能飞跃的o3系列模型

本周，在最新发布会上，OpenAI宣布了o3系列模型的问世。o3系列包括两款模型：性能卓越的OpenAI o3和性价比突出的OpenAI o3 mini。这两款模型在多个关键领域实现了显著的性能提升，包括准确率和处理速度。​

o3系列模型在SweepBench Verified基准测试中达到了约71.7%的准确率，相较于前代o1模型提高了20%。在编程竞赛平台Codeforces上，o3的得分高达2,727，远超o1的1,891分。在美国数学竞赛aime 2024测试中，o3以90.67%的准确率超越o1的83.3%。此外，在衡量博士级科学问题解答能力的GPQA Diamond测试中，o3取得了87.7%的成绩，而o1为78%。​

o3 mini保留了o1 mini的强大数学和编程能力，并支持低、中、高三种推理时间模式，用户可根据任务复杂度灵活调整模型的思考时间。在Codeforces Elo评分中，o3 mini的Elo分数随着推理时间的增加而持续攀升，中等推理时间下就已超越o1 mini。在AIMe数学基准测试中，o3 mini的低推理模式就达到了与o1 mini相当的性能，中等推理模式更是超越了o1 mini，且延时更低。​

o3系列目前仅对安全测试申请者开放，o3 mini预计将于1月向所有用户推出，而完整版o3将后续发布。​

common.docs_name - LarkCCM_Docs_Menu_Image

月之暗面发布Kimi视觉思考模型k1

月之暗面发布了其最新的视觉思考模型k1。k1模型基于强化学习技术构建，支持端到端图像理解和思维链技术，并将能力扩展到数学之外的更多基础科学领域。​

k1模型在数学、物理、化学等基础科学学科的基准能力测试中表现卓越，超过了全球标杆模型OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。此外，k1的图像理解能力也解决了之前k0-math模型无法处理的几何图形问题，在基础教育各阶段的几何和图形题专项基准能力测试中，k1-preview的成绩打平或超过了OpenAI的o1模型。​

k1模型不仅能够识别各种真实拍题场景，处理复杂状况，如照片图像不清晰、多题一起拍、手写字迹干扰，甚至纯手写的题目，还能以端到端的方式组合其强大的推理能力与视觉能力。这种端到端的有机结合范式使得k1在真实应用场景中的性能相比于OpenAI和Anthropic的视觉模型有了大幅提升。​

k1还展现出了一些涌现能力，包括古代文献分析、梗图理解、基于照片推断地点等，大大提升了其在日常生活中的实用性。​

OpenAI开放o1模型API

本周，OpenAI宣布了o1模型API的正式发布，并对其进行了重大升级。包括支持WebRTC。与之前的预览版本相比，o1模型的思考成本降低了60%，并且增加了高级视觉功能。同时，GPT-4o的音频成本也降低了60%，而mini版本价格更是降低了10倍。​

o1模型API集成了多项新功能，包括函数调用、结构化输出、开发者消息以及推理工作量调整，这些功能使得API更加强大和灵活。函数调用允许模型自动调用后端服务或外部API，结构化输出支持JSON格式数据返回，开发者消息赋予开发者更大的控制权，推理工作量参数用于平衡性能与准确性。​

OpenAI还展示了基于高级视觉功能的应用案例，如检测错误表单，o1模型能够识别出填写有误的文本表格图片中的错误，并提供修正建议。此外，o1模型还可以通过内置函数库与后台服务器通信，获取最新信息，确保结果的准确性和时效性。​

在实时API方面，OpenAI支持WebRTC技术，极大简化了开发流程。与之前的Websockets集成相比，采用WebRTC可以显著减少代码量，提高开发效率。OpenAI还推出了Python SDK支持，并大幅度降低了价格。​

此外，OpenAI发布了全新的偏好微调方法，通过直接偏好优化算法让大模型更好地掌握用户的偏好风格。偏好微调采用成对样本比较学习的方式，使模型能够理解并适应特定应用场景中的细微差异，特别适合对回答格式、语气或抽象特质有较高要求的应用场合。​

OpenAI推出ChatGPT电话功能，拓展AI应用边界

本周，OpenAI宣布，ChatGPT新增电话功能，用户现在可以通过拨打专属电话号码与ChatGPT进行交流。这一新功能的推出，极大地降低了ChatGPT的使用门槛，尤其是对于那些不熟悉互联网的老年人来说，提供了极大的便利。​

目前，这个电话号码仅在美国地区可用，无论是旧款智能手机还是老式座机都能拨打。这不仅对电话客服领域产生冲击，也可能影响到许多人的工作岗位。同时，ChatGPT还与WhatsApp完成了集成，用户可以通过这个号码直接发送短信咨询各种内容。​

OpenAI为用户提供了每月15分钟的免费通话时长，让用户在不产生额外费用的情况下体验ChatGPT的电话服务。如果用户希望进行更长时间的对话，可以直接去源应用体验。​

这项功能的推出，是向全民AGI（人工通用智能）迈出的巨大一步，使得AI技术更加开放和可访问，让更多人有机会接触和体验AI互动。​

第27期 AI行业周报（2024-12.16-12.22）​

第27期 AI行业周报（2024-12.16-12.22）