分享
第26期 AI行业周报(2024-12.09-12.15)
输入“/”快速插入内容
第26期 AI行业周报(2024-12.09-12.15)
用户2749
用户2749
用户9849
用户9849
2025年1月15日修改
谷歌发布Gemini 2.0,引领AI Agent新时代
谷歌在最新发布会上宣布了Gemini 2.0的诞生。
Gemini 2.0是谷歌迄今为止最新、功能最强大的AI模型,其最大的亮点在于成为首家实现原生多模态输入输出的模型。
Gemini 2.0的性能全面升级,速度是1.5 Pro的两倍,支持图片、视频和音频等多模态输入与输出。它能够直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。此外,Gemini 2.0还能原生调用Google Search、代码执行以及第三方用户定义的函数等工具。
基于Gemini 2.0架构,谷歌推出了三个新的AI智能体原型:通用大模型助手Project Astra、浏览器助手Project Mariner、编程助手Jules。这些智能体的推出,标志着谷歌AI向“Agent”时代的转变。
谷歌DeepMind的CEO德米斯·哈萨比斯(Demis Hassabis)对Gemini 2.0的表现非常满意,认为它实际上达到了目前Gemini 1.5 Pro的水平,意味着在保持相同成本效率、性能效率和速度的情况下,整体性能提升了一档次。
谷歌正在将AI融入其所有产品中,致力于让信息更加有用,并通过Agent技术改变人们的工作流程和生活方式。
OpenAI正式发布Sora
本周,OpenA宣布Sora正式上线,这一事件标志着AI视频生成技术的重大进步。
Sora以其强大的功能和用户界面,提供了一个全新的视频生成平台,允许用户通过简单的文本提示生成视频内容。发布会由CEO Sam Altman和Sora负责人Bill Peebles主持,展示了Sora Turbo模型版本,该版本向Plus和Pro用户开放。
Sora的用户界面类似于Midjourney,允许用户整理和浏览生成的视频,并查看其他用户的提示词和精选视频。Sora的编辑功能是其区别于其他竞品的重要亮点,包括Remix、Re-cut、Storyboard等功能,用户可以通过这些功能轻松编辑视频,提高创作效率。
技术规格上,Sora支持5-20秒的视频生成,并兼容1:1、9:16等主流宽高比。Sora Turbo采用了灵活的积分制定价策略,需要耗费的积分因分辨率和持续时间而异。ChatGPT Plus和Pro会员无需额外费用即可使用Sora。
由于Sora的热度极高,大量用户涌入体验,导致网站一度崩溃,不得不暂时关闭新用户注册。Sam Altman在X平台表示,由于需求超出预期,他们将间歇性地关闭新用户注册,并减慢内容生成速度,同时正在全力以赴解决这些问题。
Sora的发布,不仅是OpenAI在AI视频生成领域的一次重要尝试,也是对AI技术应用边界的一次拓展。尽管Sora在物理模拟和文字生成方面仍有局限性,但在风景镜头处理和特定风格生成上表现出色。Sora的成功发布,也预示着AI视频生成技术将在未来发挥更大的作用,为用户提供更多创新和便利
ChatGPT正式登陆苹果全家桶,iOS、iPadOS和macOS全面支持
本周,OpenAI在发布会上宣布,ChatGPT正式登陆iOS生态系统,全面支持iPhone、iPad和Mac。
随着iOS 18.2、iPadOS 18.2和macOS Sequoia 15.2的推送,苹果设备用户将享受到更多智能服务,包括用于创建自定义表情符号的Genmoji、生成图像的Image Playground和Image Wand,以及集成到Siri的ChatGPT服务。
用户更新至最新系统后,可以通过Siri或写作工具直接访问OpenAI的ChatGPT(GPT-4o版本),并完成一键识物、总结和复制文本、跨语言翻译以及提取电话号码等操作。这些功能的加入,将极大地提升苹果设备的智能化水平和用户体验。
苹果方面表示,明年将推出更多苹果智能的更新,其中Siri将迎来重大进化,尤其是在跨应用操作方面。但是目前,苹果智能服务暂不支持中国大陆地区,主要面向特定英语地区用户开放。