技术干货

当人人都在谈模型时,拖垮 AI 项目的却是"数据"这件事

作者:MatrixOrigin发布于

企业对 GenAI 的热情,正在被现实浇上一盆冷水。一个严峻的现实是:超过95%的企业AI项目,在完成 PoC(概念验证)后就陷入停滞,无法真正投入生产环境。

"试点"很成功,"项目"却失败了。这道从"PPT"到"生产线"的鸿沟,正是当前企业AI落地最大的挑战。当模型能力早已不是瓶颈,究竟是什么拖住了企业智能化的脚步?

答案,就隐藏在日常业务背后,那些最不起眼的地方。

那些沉默于企业各个角落的"数据",大量高价值数据——合同、图纸、财报、扫描件——因其非结构化、分散存储的特性,成为了 AI 无法直接利用的"沉睡资产"。企业需要的,或许并不是一个更强的模型,而是一个能将这些"沉睡资产"唤醒,并转化为AI可用燃料的基础设施。

传统的数据处理链路,在 AI 时代显得力不从心

企业在尝试将AI融入核心业务时,往往会陷入两个困境:

数据就绪难:非结构化数据的"沼泽"

企业的核心知识,大多以非结构化形态(文档、图片、扫描件)沉淀。传统的数据工程面对这些数据,就像陷入了沼泽——处理流程复杂、耗时耗力,需要专门的数据科学家团队投入数月时间。合规、脱敏、溯源等问题,更是让每一步都如履薄冰。

模型可信难:从"高智商"到"懂业务"的鸿沟

通用大模型能力再强,也无法直接理解特定行业的"黑话"和复杂业务逻辑。如果不能以高质量的私域数据为"锚点",模型的输出就容易出现幻觉,变成"脱缰的野马"。当财务报表小数点错位、合同条款理解偏差时,这种"不可信"的风险,是任何企业都无法承受的。

这两个难题,导致企业 AI 项目常常止步于客服问答、文档摘要等边缘场景,难以触及真正创造价值的核心业务,投资回报自然也算不过来账。

让AI"反哺"数据,用智能终结复杂

要破解这个困局,需要转变思路:不仅要"以数(数据)生智(人工智能)",更要"以智驭数"。 即利用 AI 的能力,来简化和自动化复杂的数据治理过程。

这正是矩阵起源 MatrixOne Intelligence (MOI) 的核心解法——一个AI原生的多模态数据智能平台。

MOI 没有沿用传统 ETL(抽取、转换、加载)的线性流程,而是构建了一套" AI 驱动"的数据处理闭环,其架构可以简化为三层:

底层:统一纳管,构建"数据基座"

基于 MatrixOne 云原生超融合数据库,MOI 通过丰富的连接器,能将企业散落在对象存储、各类数据库、知识库工具中的结构化与非结构化数据"一网打尽",形成统一的数据资产视图。数据版本、血缘、权限等问题,在接入之初就得到有效管理。

中间层:AI工作流,把数据处理成AI-Ready资产

这是 MOI 的关键创新。面对海量原始数据,企业不再需要组建庞大的数据工程团队。通过 Agentic Workflow,业务人员可以用自然语言"指挥" AI:

"分析这批文件里PDF和图片的占比"

"提取所有合同中的甲方、金额和起止日期"

"清洗数据,并识别出跨页的表格,将它们合并"

MOI 会基于意图理解,自动分析数据、推荐并生成最佳处理流程。无论是文档解析、内容提取,还是数据增强,整个过程都由 AI 驱动,极大降低了数据处理的门槛和周期。

顶层:可信输出,成为业务的可依赖源

经过处理后的高质量数据,可以直接服务于下游应用:无论是构建 RAG 知识库、生成精准的 BI 报表,还是作为训练数据集来精调垂直领域模型。因为数据源头和处理过程全程可控,最终输出的结果也就更加可信,有效避免了模型幻觉。

从标书制作到智能诊疗,AI 价值在场景中落地

技术架构的先进性,最终要通过业务价值来检验。在实际应用中,MOI已经帮助企业解决了多个核心业务难题。

场景一:让300页的标书制作,从10天缩短到1天

在大型制造企业,制作一份数百页的标书,需要投标人员在技术、法务、财务等多个部门间反复沟通,核对产品参数、历史案例、合同资质,过程繁琐且极易出错。

MOI 打通了企业内部的数据管道:

**智能解析:**自动从复杂的招标文件中提取关键需求。

**多模态检索:**输入需求,即可在企业知识库中快速检索到最匹配的技术方案、历史合同与资质文件。

**可信生成:**基于检索到的私域数据,生成准确率超过90%的标书内容,并自动对发票、合同等敏感信息进行脱敏遮罩。

过去需要一个团队花费一周以上的工作,现在最快1天即可完成,不仅效率倍增,更将分散的业务知识沉淀为可复用的数字资产。 1.png

场景二:盘活"沉睡"病历,辅助医生精准决策

某三甲医院在慢性病管理中,积累了大量手写或扫描的病历照片。这些非结构化数据形成了"数据孤岛",医生难以关联患者的全周期病史进行决策。 MOI 统一接入了这些病历图像,利用其多模态解析能力,自动提取关键信息(如用药史、体征变化),并结合对抗性样本生成技术,构建了一个高质量的训练数据集。最终,医院基于此训练出的智能问诊模型,能够自动关联患者档案,为医生提供更精准的诊疗建议,首次实现了从"数据孤岛"到"智能诊疗"的闭环。 2.png

那么,这个复杂的"数据转化工厂",在实际操作中是如何运转的? 在近期的分享中,我们的产品研发负责人赵晨阳最近进行了一场完整的现场演示,直观展示了从接入多种数据源,到通过自然语言构建 AI 工作流,再到最终生成 AI-Ready 数据资产的全过程。 👇点击下方链接,观看全部内容以及演示👇 https://www.bilibili.com/video/BV1Rhs7zHER9/?spm_id_from=333.1387.homepage.video_card.click

当 GenAI 的浪潮从技术狂欢走向产业深耕,真正的挑战已经从"模型够不够强",转向了"数据能不能用好"。破解企业 AI "空转"难题的关键,是构建一套现代化的数据基础设施,让数据处理不再是 AI 落地的阻碍。只有当数据能够高效、可信地流动起来,AI 才能真正成为驱动业务增长的核心引擎。


关于矩阵起源

矩阵起源是业界领先的数据智能(Data & AI)平台技术和服务提供商,核心团队来自国内外知名科技公司,具备广阔的行业和国际视野。矩阵起源的核心产品 MatrixOne Intelligence 是面向企业的AI原生多模态数据智能平台,利用包括大模型在内的人工智能技术和创新的超融合数据底座,帮助企业统一管理和治理多模态数据,将私域数据转化为 AI-Ready 数据资产。目前已经服务了 StoneCastle、中移物联、安利纽崔莱、江西铜业、徐工汉云等各行业龙头企业,助力企业实现从信息化、数字化到智能化的转型升级。