第26期 AI行业周报（2024-12.09-12.15）

用户2749

用户9849

2025年1月15日修改

谷歌发布Gemini 2.0，引领AI Agent新时代

谷歌在最新发布会上宣布了Gemini 2.0的诞生。

Gemini 2.0是谷歌迄今为止最新、功能最强大的AI模型，其最大的亮点在于成为首家实现原生多模态输入输出的模型。​

Gemini 2.0的性能全面升级，速度是1.5 Pro的两倍，支持图片、视频和音频等多模态输入与输出。它能够直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音(TTS)音频。此外，Gemini 2.0还能原生调用Google Search、代码执行以及第三方用户定义的函数等工具。​

基于Gemini 2.0架构，谷歌推出了三个新的AI智能体原型：通用大模型助手Project Astra、浏览器助手Project Mariner、编程助手Jules。这些智能体的推出，标志着谷歌AI向“Agent”时代的转变。​

谷歌DeepMind的CEO德米斯·哈萨比斯（Demis Hassabis）对Gemini 2.0的表现非常满意，认为它实际上达到了目前Gemini 1.5 Pro的水平，意味着在保持相同成本效率、性能效率和速度的情况下，整体性能提升了一档次。​

谷歌正在将AI融入其所有产品中，致力于让信息更加有用，并通过Agent技术改变人们的工作流程和生活方式。​

OpenAI正式发布Sora

本周，OpenA宣布Sora正式上线，这一事件标志着AI视频生成技术的重大进步。​

Sora以其强大的功能和用户界面，提供了一个全新的视频生成平台，允许用户通过简单的文本提示生成视频内容。发布会由CEO Sam Altman和Sora负责人Bill Peebles主持，展示了Sora Turbo模型版本，该版本向Plus和Pro用户开放。​

Sora的用户界面类似于Midjourney，允许用户整理和浏览生成的视频，并查看其他用户的提示词和精选视频。Sora的编辑功能是其区别于其他竞品的重要亮点，包括Remix、Re-cut、Storyboard等功能，用户可以通过这些功能轻松编辑视频，提高创作效率。​

技术规格上，Sora支持5-20秒的视频生成，并兼容1:1、9:16等主流宽高比。Sora Turbo采用了灵活的积分制定价策略，需要耗费的积分因分辨率和持续时间而异。ChatGPT Plus和Pro会员无需额外费用即可使用Sora。​

由于Sora的热度极高，大量用户涌入体验，导致网站一度崩溃，不得不暂时关闭新用户注册。Sam Altman在X平台表示，由于需求超出预期，他们将间歇性地关闭新用户注册，并减慢内容生成速度，同时正在全力以赴解决这些问题。​

Sora的发布，不仅是OpenAI在AI视频生成领域的一次重要尝试，也是对AI技术应用边界的一次拓展。尽管Sora在物理模拟和文字生成方面仍有局限性，但在风景镜头处理和特定风格生成上表现出色。Sora的成功发布，也预示着AI视频生成技术将在未来发挥更大的作用，为用户提供更多创新和便利​

ChatGPT正式登陆苹果全家桶，iOS、iPadOS和macOS全面支持

本周，OpenAI在发布会上宣布，ChatGPT正式登陆iOS生态系统，全面支持iPhone、iPad和Mac。​

随着iOS 18.2、iPadOS 18.2和macOS Sequoia 15.2的推送，苹果设备用户将享受到更多智能服务，包括用于创建自定义表情符号的Genmoji、生成图像的Image Playground和Image Wand，以及集成到Siri的ChatGPT服务。​

用户更新至最新系统后，可以通过Siri或写作工具直接访问OpenAI的ChatGPT（GPT-4o版本），并完成一键识物、总结和复制文本、跨语言翻译以及提取电话号码等操作。这些功能的加入，将极大地提升苹果设备的智能化水平和用户体验。​

苹果方面表示，明年将推出更多苹果智能的更新，其中Siri将迎来重大进化，尤其是在跨应用操作方面。但是目前，苹果智能服务暂不支持中国大陆地区，主要面向特定英语地区用户开放。​

第26期 AI行业周报（2024-12.09-12.15）​