分享
11🈷️20日
输入“/”快速插入内容
11🈷️20日
飞书用户2749
2024年11月20日修改
阿里云发布逆天大模型Qwen2.5-Turbo 一口气读完十本小说,推理速度提升4.3倍
阿里云重磅推出全新升级的Qwen2.5-Turbo大语言模型,其上下文长度突破至惊人的100万Token。这相当于什么概念?相当于10部《三体》,150小时的语音转录或3万行代码的容量!这回可真是“一口气读完十本小说”不是梦了!
Qwen2.5-Turbo模型在Passkey Retrieval任务中实现了100%的准确率,并且在长文本理解能力方面超越了GPT-4等同类模型。该模型在RULER长文本基准测试中取得了93.1的高分,而GPT-4的得分仅为91.6,GLM4-9B-1M的得分则为89.9。
除了超长文本处理能力,Qwen2.5-Turbo还兼具短文本处理的精准性,在短文本基准测试中,其性能表现与GPT-4o-mini和Qwen2.5-14B-Instruct模型相当。
通过采用稀疏注意力机制,Qwen2.5-Turbo模型将处理100万Token的首次token时间从4.9分钟缩短至68秒,实现了4.3倍的推理速度提升。
同时,处理100万Token的费用仅为0.3元人民币,与GPT-4o-mini相比,在相同成本下可以处理3.6倍的内容。
阿里云为Qwen2.5-Turbo模型准备了一系列演示,展示了其在深度理解长篇小说、代码辅助和多篇论文阅读等方面的应用。例如,用户上传了包含69万Token的《三体》三部曲中文小说后,模型成功地用英文概括了每部小说的情节。
用户可以通过阿里云模型工作室的API服务、HuggingFace Demo或ModelScope Demo体验Qwen2.5-Turbo模型的强大功能。
阿里云表示,未来将继续优化模型,提升其在长序列任务中的人类偏好对齐,并进一步优化推理效率,降低计算时间,并尝试推出更大更强的长上下文模型。
官方介绍:
https://qwenlm.github.io/blog/qwen2.5-turbo/
在线演示:
https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
API文档:
https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen
北大团队发布多模态模型 LLaVA-o1,推理能力堪比 GPT-o1!
近日,北京大学等科研团队宣布发布了一款名为 LLaVA-o1的多模态开源模型,据称这是首个能够进行自发、系统推理的视觉语言模型,堪比 GPT-o1。
该模型在六个具有挑战性的多模态基准测试中表现优异,其11B 参数的版本超越了其他竞争者,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。
LLaVA-o1基于 Llama-3.2-Vision 模型,采用了 “慢思考” 推理机制,能够自主进行更加复杂的推理过程,超越了传统的思维链提示方法。
在多模态推理基准测试中,LLaVA-o1的表现超出了其基础模型8.9%。该模型的独特之处在于其推理过程被分为四个阶段:总结、视觉解释、逻辑推理和结论生成。在传统模型中,推理过程往往比较简单,容易导致错误答案,而 LLaVA-o1通过结构化的多步骤推理,确保了更为精准的输出。
例如,在解决 “减去所有的小亮球和紫色物体,剩下多少个物体?” 的问题时,LLaVA-o1会首先总结问题,接着从图像中提取信息,然后进行逐步推理,最终给出答案。这种分阶段的方法提升了模型的系统推理能力,使其在处理复杂问题时更为高效。