2025年6月,火山引擎FORCE原动力大会在北京举办。火山引擎数智平台正式发布多模态数据湖全新产品架构。该架构通过存储与计算能力的深度优化,构建兼容文本、图像、音频、视频等多元数据的处理框架,为企业打造适应Agentic AI(智能体人工智能)时代的新一代AI Native数据基础设施,助力企业从传统商业智能向AI驱动的决策模式转型。
随着全球数据规模爆发式增长,非结构化数据与多模态AI解决方案的占比正快速攀升。IDC预测,到2028年全球数据总量将达393ZB,其中超80%为非结构化数据;Gartner则指出,到2027年,40%的生成式AI解决方案将采用多模态技术,较2023年的1%实现飞跃式提升。这一趋势标志着AI正从单一模态迈向多模态协同的“集团军作战”时代,要求数据基建具备处理复杂多模态信息的能力,以更贴近人类感知的方式理解世界。
火山引擎多模态数据湖解决方案在此背景下持续迭代。此前,该方案已实现海量结构化、半结构化及非结构化数据的统一管理,为LLM(大语言模型)全生命周期训练提供数据支持。此次升级进一步强化了多模态数据处理能力:新增模型数据处理蒸馏与多模态分析能力,优化与火山引擎各平台的联动机制,通过MCP(多模态认知平台)简化数据开发流程,帮助企业高效识别与利用多模态数据资产。
在技术落地层面,火山引擎多模态数据湖聚焦三大核心场景:
在文本、图像、音视频等多模数据的处理场景上,提供更易用的湖处理方案,帮助用户快速解锁多模态数据的价值,降低数据使用的门槛。用户可直接AI数据湖产品的 MCP工具中用自然语言的方式输入数据处理需求,比如对低清图片提出增强高清诉求,实现图片批量处理。
在模型训练上,提供低成本高性能的模型数据处理与蒸馏方案,通过与火山方舟的无缝衔接,数据零拷贝,让用户能直接在可视化界面上一键开启回流按钮,成功激活专属私有数据湖将推理数据同步至LAS,进行快速处理,筛选出高质量数据一键导出至方舟用于模型精调。
针对用户海量数据进行批量的向量化和快速检索需求,火山引擎多模态数据湖提供了湖检索和湖分析能力,ByteHouse和AI数据湖LAS联动,实现多种模态的快捷检索。通过LAS完成多模数据向量化转换,利用ByteHouse实现向量检索特性分析,实现以图搜图。
某知名汽车品牌在智驾网联场景的大模型训练中应用该方案,验证了其技术价值:通过MR Ray Remote Dataloader技术解决CPU满载问题,数据加载效率提升2倍,模型训练迭代效率整体提升1.5倍;GPU单卡并发支持多个标注推理模型,单卡利用率提升至95%以上,资源成本大幅降低;采用LAS Lance替代传统LMDB,减少数据预处理阶段的GPU消耗,并支持数据压缩,使存储与管理成本降至原来的1/4。
多模态数据湖的升级,帮助企业数据基建从支撑商业智能报表转向成为驱动AI模型训练与决策的核心引擎。火山引擎数智平台负责人郭东东表示:“通过Data 与AI的深度交织,新的数据智能将能帮助企业构建面向AI时代的好基建,成就好模型,促生好应用,带来好增长。”
当前,数据与AI的深度交织已成为企业竞争的核心要素。火山引擎将持续迭代多模态数据湖产品能力,携手企业共同探索数据智能的无限可能,为Agentic AI时代的到来注入新动能。