字节跳动发布豆包视觉理解、3D生成等新模型，加速多模态应用落地

12 阅读 0 评论 0 点赞

字节跳动在火山引擎force大会上重磅发布豆包视觉理解模型，以极具竞争力的价格，为企业提供强大的多模态大模型能力。该模型千tokens输入价格低至3分钱，一元钱即可处理284张720p图片，显著降低ai应用门槛。

豆包大模型：全面升级，能力进化

火山引擎总裁谭待介绍，豆包视觉理解模型不仅具备精准的视觉内容识别能力，更拥有强大的理解和推理能力，能够基于图像信息进行复杂逻辑计算，例如分析图表、处理代码、解答学科问题等。此外，它还具备细腻的视觉描述和创作能力。

火山引擎总裁谭待

豆包视觉理解模型已集成至豆包App和PC端产品。豆包战略研究负责人周昊表示，团队致力于提升用户输入效率，因此豆包产品高度重视多模态输入，包括语音、视觉等能力，并通过火山引擎开放给企业客户。

大会上，豆包3D生成模型首次亮相，它与火山引擎数字孪生平台veOmniverse结合，高效完成智能训练、数据合成和数字资产制作，构建了支持AIGC创作的物理世界仿真模拟器。

豆包大模型其他产品也迎来了重要更新：豆包通用模型Pro全面对齐GPT-4，价格仅为其1/8；音乐模型升级，可生成时长达3分钟的完整作品；文生图模型2.1版本实现精准生成汉字和一句话P图，已接入即梦AI和豆包App。

即梦Dreamina张楠认为，生成式AI技术能够快速将创意视觉化，即梦致力于成为“想象力世界”的记录者，帮助用户轻松表达、自由创作。

即梦Dreamina 张楠

大会宣布，2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版，以及支持多角色演绎、方言转换等功能的豆包端到端实时语音模型。谭待表示，豆包大模型虽然发布较晚，但迭代迅速，已成为国内最全面、技术最领先的大模型之一。

大模型应用：加速落地，赋能千行百业

数据显示，截至12月中旬，豆包通用模型日均tokens使用量已突破4万亿，较七个月前增长33倍。大模型应用正加速渗透各行各业。

豆包大模型已与八成主流汽车品牌合作，并接入众多手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的调用量半年内增长100倍。

在企业生产力领域，豆包大模型也备受青睐：近三个月，信息处理场景调用量增长39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也大幅增长。

谭待认为，豆包大模型市场份额的快速增长，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念，让AI成为普惠科技。

同时，火山引擎升级了火山方舟、扣子和HiAgent三款平台产品，助力企业高效构建AI能力中心和AI应用。火山方舟推出大模型记忆方案，并升级API，降低延迟和成本；还推出全域AI搜索，提供场景化搜索推荐一体化、企业私域信息整合等服务。

火山引擎认为，下一个十年，计算范式将从云原生进入AI云原生时代。基于此理念，火山引擎推出新一代计算、网络、存储和安全产品，例如支持大规模并行计算和P/D分离推理架构的GPU实例，以及能够实现GPU直连、降低大模型推理时延和成本的EIC弹性极速缓存，以及确保大模型安全可靠的PCC私密云服务。

谭待总结道，火山引擎希望通过AI云原生和豆包大模型家族，帮助企业抓住AI发展机遇，创造更美好的未来。

以上就是字节跳动发布豆包视觉理解、3D生成等新模型，加速多模态应用落地的详细内容，更多请关注慧达安全导航其它相关文章！