MatrixOne Intelligence
多模态AI数据智能解决方案白皮书
Your Data for Your AI
前言
在当今时代,生成式人工智能(Generative AI,简称GenAI)正以前所未有的速度席卷全球,成为推动科技进步和产业变革的重要力量。从ChatGPT的横空出世到各类大模型的广泛应用,GenAI不仅在技术层面取得了突破性进展,更在商业和社会层面引发了深远的影响。从文本生成、图像绘制到视频制作,GenAI的应用场景日益丰富,为各行各业带来了前所未有的机遇与挑战。
据麦肯锡全球研究院(McKinsey Global Institute)的报告,到2030年,AI技术有望为全球GDP贡献高达13万亿美元的增长。 Gartner 预计在 2026 年,超过 80% 的企业将使用生成式 AI (GenAI)应用程序编程接口(API)或模型,或者在相关生产环境中部署支持生成式 AI 的应用程序。这一比例在 2023 年还不到 5%,这意味着在短短三年内,采用或创建生成式 AI 模型的企业数量预计将会增长 16 倍。
在生成式人工智能(GenAI)的架构中,数据处理的作用尤为关键。AI技术与数据的紧密联系显而易见:庞大的数据集训练出强大的AI模型,而这些模型的功能又能促进数据处理的进一步优化。尽管如此,行业对GenAI技术栈中的算力层、模型层和应用层的各项能力及技术方案已有深入探索,但对数据处理层的重视程度仍显不足。在通用基座大模型越来越普及的趋势下,对企业自有数据的挖掘利用将变成GenAI落地企业级应用的最关键因素。
矩阵起源作为一家Data+AI领域的创业公司,在数据及AI领域已经有超过十年的行业经验沉淀。本白皮书将从矩阵起源的专业视角,深入剖析Data+AI领域的最新趋势和挑战,并给出如何对企业自有数据进行深度挖掘利用的详细蓝图,以实现更符合企业实际业务价值的GenAI应用落地。
GenAI时代的数据挑战
类人脑计算能力的崛起
驱动GenAI技术发展的核心是大语言模型LLM,其本质上是使用计算机构建巨大的神经网络结构模拟人脑的构成,然后将海量的文本知识压缩到一个有庞大参数量的神经网络中。这样的架构可以给计算机赋予人类一样的交互能力,可以理解人类的语言和需求,再生成便于人类理解的数据。
GenAI的类人脑计算能力与过去传统意义上计算机擅长的高速数学计算有根本性的区别:
-
传统计算能力可以轻松完成人类在短时间内难以完成的复杂科学计算,而且工作准确度极高,相同的任务可能需要大量人力进行手动计算整合才能完成,且人类的工作经常出错,但是传统计算能力难以处理以人类自然语言构成的NLP任务,比如文档理解、对话理解、图片理解等,而对于人类而言即使是儿童也具备这些能力。
-
而新型的GenAI计算能力是完全模仿人脑的结构所设计的,所展现的能力也跟人类行为极为相似,通过自然语言交互,同样能很轻松的胜任文档理解、对话理解、图片理解等任务,同时具备一定的创造力,可以生成现实中不存在的东西,但是并不擅长复杂的数学计算,准确度也是天生的缺陷。
因此,GenAI真正带来的是一种全新的类人脑计算能力,它与传统的计算机精确数学计算能力共同构成了我们当今IT世界的新型计算基座。
非结构化数据价值开始被挖掘
数据作为IT世界的另外一个重要基石,在GenAI的新型计算能力加持下也发生了巨大的变化。
传统上在数据处理领域,我们会把数据分成三类,结构化数据、半结构化数据和非结构化数据:
-
结构化数据是定量数据,由值和数字组成,是高度组织化的数据,易于访问和解释,它们往往以二维表格和数据库的形式存在。
-
非结构化数据是定性数据,没有内部结构,由文本、视频和图像组成,包括各种格式的办公文档、图片、网页、音频/视频信息等,这些数据往往以文件的形式存在。
-
半结构化数据则位于两者之间,它一般是自描述的,数据的结构和内容混在一起,没有明显的区分,如JSON、XML等格式的数据。
在过去数十年的Data Infra领域发展过程中,结构化数据和半结构化数据处理都是其中绝对的主角,结构化和半结构化数据由业务流程产生,与商业价值高度相关,这些数据与企业的流程业务及商业化息息相关,Data Infra软件领域也逐渐演化出了非常成熟的产品及处理能力。
然而,根据Gartner的数据显示,结构化和半结构化数据仅仅占到全世界数据比例的不到20%,其他80%以上均是非结构化数据。在过去的技术能力下,非结构化数据难以处理,价值难以被挖掘和衡量,有研究显示大量办公文档类的数据在整个生命周期内最多只被使用过2次,相比较其被努力创造出来的投入相比产生的价值极为有限。因此,非结构化数据长期被当成企业负资产的存在。
本质上而言,非结构化数据实际上是为了方便人类与计算机交互,所创造出来的专为人类服务的各类格式,其与人类的理解能力及使用习惯息息相关,但是其对于传统的以数学计算为主要能力的计算机而言则难以被解析和处理。
而如今GenAI技术的出现则彻底打破了这个现状,一方面AI大模型本身即是由海量非结构化的文档及多模态数据训练而成,企业可以应用自身沉淀的大量非结构化数据进行模型训练及精调,另一方面在如RAG类型的技术框架的帮助下,非结构化数据可以通过AI解析及外挂向量数据库的方式得以实现解析及结构化,用户可以轻松实现如ChatWithPdf等类型的业务。
占全球数据80%以上的非结构化数据得以实现价值解锁,其中蕴含的丰富业务洞察、客户需求和市场趋势,可以为企业创新、决策提供更进一步的数据价值。
企业落地GenAI的数据困境
在过去两年GenAI技术突飞猛进的背景下,企业普遍已经充分认识到了以AI大模型为基础的智能化升级的重要性,大量企业也都开始在开展与GenAI相关的技术预研及试验性的落地尝试。然而,由于通用AI大模型本质上是海量公开知识的压缩,在企业级场景落地中必然会碰到对企业相关语言和业务理解不准确的问题。
但是对于绝大部分企业而言,都对于更加准确的解决自身商业问题会提出较高的要求。而为了让通用大模型在行业中提高解决业务问题的精确度,不管是通用模型适应行业所进行精调方案,还是通过RAG架构进行知识外挂的方案,都离不开企业自有高质量数据的融入。同时面向行业的GenAI方案对于企业自有数据的要求往往是混合类型的,多模态的,既包括已经有相对较完善的Data Infra处理的结构化及半结构化数据,也包含了过去未经过处理的多模态非结构化数据,而这样的数据需求给企业落地GenAI提出了巨大的挑战。
在观察了大量企业实验落地GenAI的过程后,我们总结了以下问题:
严重的数据碎片化问题
在GenAI浪潮到来之前,企业的数据处理重点多集中于结构化数据的整合与优化,许多企业通过打破烟囱式业务系统构建了数据中台。然而,GenAI应用场景对数据的要求远超以往,尤其是多模态数据的整合,其来源分散且管理复杂。非结构化数据通常分布在云盘、内部IM工具、对象存储、业务系统、服务器文件系统和个人设备中,创建与存储时缺乏统一的管理流程。而结构化数据在GenAI场景中也需与非结构化数据混用,不同数据类型间的关联进一步增加了碎片化程度。企业不仅需要高效整合这些异构数据源,还需确保权限与隐私的分级管理,以满足合规和安全要求。
异构多模态数据整合的复杂性
为了让GenAI在业务场景中真正创造价值,企业需要同时整合结构化、半结构化和非结构化数据进行融合使用。尤其是非结构化数据,因其多样的格式和模态(如Word、PPT、PDF、JPEG、WAV、MP4等),每种格式都涉及复杂的解析与治理流程。以PDF为例,其处理链路包括版式检测与分割、内容识别(如文字、表格、图片)以及特征抽取。如果需要进一步与结构化和半结构化数据整合,整体链路的复杂性会成倍增加。对于缺乏深厚数据和AI工程能力的企业,这些技术门槛难以逾越。
规模化部署和管理难度高
GenAI的应用和多模态数据处理高度依赖强大的IT基础设施。构建一个使用数十份文档的RAG Demo相对简单,但在真实的大型生产环境中,企业通常需要处理PB级别的数据,并进行复杂的模型精调和训练。这不仅需要大量高性能GPU和CPU的算力支持,还需依托大容量存储和高带宽、低延迟的网络架构。同时,底层资源软件管理平台也必须具备资源调度与自动化扩展的能力,支持多模态数据的预处理与存储,并以云原生架构为基础,确保跨环境的灵活部署和高效管理。
数据召回与输出准确率的局限
作为GenAI的核心技术,大模型本质上是基于概率分布生成输出内容,这一特性决定了其难以在高要求的企业业务场景中做到完全精确。准确率不足直接影响了商业价值,因此结合企业自身数据进行模型精调或采用RAG(检索增强生成)框架成为必然选择。然而,这些优化技术本身存在较高的技术门槛。例如,在RAG框架中,基础的向量语义搜索对于短词短句的提问效果不佳,难以满足高精度的业务需求,需要引入多种搜索方式(如关键词匹配和全文检索)进行补充。而在企业普遍期待的Chat2BI应用场景中,直接使用大模型生成的SQL往往准确率较低,需通过工程化手段如语法校验与结果优化,来提高其实际可用性。
典型行业场景的落地难题
以下列举了三个典型企业场景的真实案例,展示GenAI企业级落地中数据层面的主要障碍:
报业传媒集团公司
该集团企业已经成立近30年,其看到了GenAI在内容生产上的强大能力,希望在内容生产领域能对自身业务进行赋能,在内容生产的工作流程中嵌入AI的能力。但是通用大模型的效果不够理想,而该集团企业拥有海量的媒体素材,包括历史报刊的数字化文件、大量的图片、音视频资料等,因此其希望将自有海量素材与大模型能力结合起来,再嵌入到自身的工作流。然而经过梳理和盘点后发现,这些素材数据散放在各种业务系统、硬盘、云网盘等空间里,碎片化极为严重;同时缺乏手段可以从中找到与希望生产的内容主题相关的素材,一线编辑仅能凭记忆和少量筛选的模式来从中获取极少量素材;另外如何将这些素材与大模型结合起来落地,不管是做精调还是RAG方案,对于该企业而言也存在巨大的技术和资源门槛。
大型电子制造公司
该公司是一家年产值上百亿元的电子生产企业,拥有多家工厂和数十条电子产品的生产线。该企业长期在产线上采集大量各类型数据,包括生产设备产生的结构化、文档、图片数据,还有员工操作的音视频数据,结构化数据相对已经比较好的被MES系统数据库所承载,然而其他类型的数据还一直无法得到有效处理。举例来说,针对工人在某道工序上的操作规范,每个工位有摄像头采集了员工操作视频,该企业目前只能通过人工抽查视频的形式判断员工是否戴手套,是否有磕碰等行为,但是其覆盖率仅有不到5%,同时很难再与其他系统数据进行关联分析。GenAI的出现对该企业而言是一个新的契机,然而对于多模态数据的统一治理及与大模型的联动,同样超出了该公司的技术能力。
市级政府规划部门
该部门为某市级政府的发展规划部门,该市经济主要以传统工业为主,因此招商引资的政策倾向也比较看重新能源相关的高附加值工业。该部门的招商人员长期以来都需要关注多个细分产业的市场动向及各地政策情况,以对自身发展决策提供依据。然而长期以来都只能依靠人工方式去网络上搜索获取相关信息,再经过人工的整合归纳后,结合自身产业数据,按月发布相关报告,以供决策层领导使用。GenAI技术出现以后,招商人员开始通过使用公开的大模型工具来进行更进一步的搜索和整合,提高了一定的工作效率。然而面对如行业咨询报告,上市公司财报,工商注册信息等更加复杂及多元的数据,实际上通用GenAI大模型工具输出效果并不理想,二涉及到当地产业的各类文件、政策、统计数据等,涉及到的处理复杂度将进一步提升。
总结
GenAI的价值已被企业广泛认可,并在实际应用中初步落地。然而,要真正解决业务问题并发挥其商业潜力,GenAI的实施必须依赖高质量的企业自有数据。长期以来,非结构化数据的潜在价值未被充分挖掘,而GenAI的出现为这些数据的激活带来了全新的可能性,同时也提升了其在企业应用中的商业价值。然而,大多数企业的数据仍未达到AI-Ready的高质量标准,面临工程复杂性和资源高成本的挑战。当前,行业亟需一套高效且全面的解决方案,来应对混合多模态数据的整合与利用。
MatrixOne Intelligence 多模态AI数据智能解决方案
MatrixOne Intelligence概述
矩阵起源自成立以来,一直以为数字世界提供简捷强大的数据智能操作系统作为使命,致力于为企业和用户简单、敏捷、高效地拥抱数据智能价值。
MatrixOne Intelligence是一套面向多模态数据的AI数据智能解决方案,旨在帮助企业应对数据碎片化、多模态数据整合复杂、生成式AI应用落地困难等挑战。通过集成数据治理、智能解析、多模态搜索和超融合数据底座等功能,MatrixOne Intelligence为企业提供了一站式的端到端平台解决方案。该平台基于创新的云原生架构和存算分离设计,支持结构化、半结构化和非结构化数据的统一管理和高效处理,具备高度灵活的部署能力,可适配公有云、私有云及本地数据中心的多种环境。
MatrixOne Intelligence致力于赋能企业,帮助企业充分挖掘和释放自身数据的潜能,让企业自有数据成为其独特竞争力的关键来源。
解决方案架构介绍
在前文中,我们探讨了GenAI在企业级应用落地中面临的数据挑战,包括数据碎片化、异构多模态数据整合复杂、以及自有数据的价值难以充分释放。这些问题严重限制了企业在数据智能时代的竞争力和效率。而MatrixOne Intelligence作为一套面向多模态数据的AI数据智能解决方案,正是针对这些关键痛点设计,为企业提供了一条从数据到智能的全新路径。
为解决这些挑战,MatrixOne Intelligence通过统一的底层资源管理、全链路数据治理、多模态数据融合存储、建模及搜索能力,搭建了一套端到端的数据智能架构。如下图所示,该解决方案自下而上分为四个层次,分别是基础设施层、数据集成与治理层、数据库及AI服务层,以及应用交互层。这四个层次环环相扣,共同构建出一个强大的数据智能解决方案。
基础设施层
基础设施层是整个解决方案的IT资源底座,它整合了CPU和GPU计算能力,支持大规模的并行处理,确保AI模型和数据处理的高效运行。容器编排与管理功能提升了系统的可扩展性和灵活性,为企业提供高效的资源调度和负载均衡。
数据集成与治理层
数据集成与治理层负责从左侧各类数据源中采集、清洗和转换数据,进行统一的预处理和特征工程。它支持结构化、半结构化及非结构化数据的整合与处理,确保数据的质量和一致性,为后续的分析和AI模型训练提供可靠的数据基础。
数据库及AI服务层
数据库及AI服务层提供了完善的数据库及AI模型能力底座。其支持结构化、半结构化及非结构化数据的融合存储与建模,同时提供LLM模型、Embedding模型和自定义模型训练功能,也提供了快速构建智能体的工作流工具能力。
应用交互层
应用交互层是用户与整体方案的界面接口,用户既可以直接使用我们提供的多模态搜索及Chat2BI的终端应用,也可以通过API及工作流工具的形式自行构建相关应用。
核心产品概述
如前文架构图所示,MatrixOne Intelligence解决方案包含五款核心软件产品,它们分别对应解决方案架构中的不同层次,构成了完整的技术体系。这些产品通过协同工作,将基础设施、数据集成、治理、存储、分析以及交互能力无缝连接起来,提供了一套一站式、端到端的多模态数据智能解决方案。
接下来,我们将逐一介绍这五款核心产品,详细阐述它们在不同层次中的功能定位和独特价值,展示它们如何协作以应对企业在生成式AI落地中的数据和智能挑战。
MatrixDC 高性能算网调度平台
MatrixDC是一套高性能算网调度平台,它作为资源底座,通过K8s容器、RDMA高速网络、对象存储等基础能力打造了一套将CPU及GPU服务器统一纳管、组网、调度及运营的平台。MatrixDC集成了全面的容器编排与管理能力,通过Kubernetes等云原生技术实现算力网络及存储资源的弹性扩展与高效利用。MatrixDC支持多种计算资源的整合,包括CPU、GPU以及存储和网络资源,能够满足从小规模实验到大规模生产环境的多样化需求。通过容器化技术和分布式部署架构,MatrixDC为企业提供了灵活的资源分配方式,支持Serverless化服务调用,帮助用户在应对复杂计算任务的同时大幅降低运维成本。此外,MatrixDC具备低延迟、高吞吐的网络优化能力,能够保障多节点间高效通信,是多模态AI任务运行和大模型训练的强大技术基石。
MatrixOne 超融合云原生数据库
MatrixOne是MatrixOne Intelligence平台的核心数据管理底座,旨在为企业提供一套全面的超融合数据库解决方案,以支持面向GenAI的多模态数据的高效处理。其采用存算分离与云原生架构设计,支持结构化、半结构化和非结构化数据的统一存储与查询。MatrixOne具备多模态数据融合处理能力,可同时支持事务型(OLTP)、分析型(OLAP)、向量检索、全文搜索和时序数据查询,极大地简化了企业复杂数据负载的管理需求。此外,MatrixOne具备强大的快照功能,为GenAI中快速动态变化的训练集、验证集和评估集的数据版本化提供了可靠支持。通过与MatrixGenesis及MatrixPipeline的深度集成,MatrixOne能够快速完成数据解析、向量化和特征工程,并支持高性能的多维度检索与召回。
MatrixGenesis AI智能体应用开发平台
MatrixGenesis是MatrixOne Intelligence平台中的AI服务模块,专注于为企业提供大模型支持与智能应用开发能力。作为企业AI转型的核心工具,MatrixGenesis涵盖从模型训练与精调到推理部署的全生命周期管理,帮助企业将生成式AI快速应用于实际业务场景。通过整合先进的大模型服务(如LLM和多模态模型)和MaaS(模型即服务)平台,MatrixGenesis支持灵活配置和扩展,适应多样化的行业需求。此外,MatrixGenesis具备强大的Agent工作流设计与开发功能,使企业能够快速构建面向特定业务场景的智能体应用。凭借高效的工作流管理工具和便捷的模型集成能力,MatrixGenesis大幅降低了企业在AI应用开发中的技术门槛,为生成式AI的规模化落地提供了坚实支撑。
MatrixPipeline 多模态数据工程平台
MatrixPipeline是MatrixOne Intelligence平台中的数据处理与治理模块,专为企业提供多模态数据的高效接入、转换和管理能力。作为数据流的核心引擎,MatrixPipeline支持从结构化、半结构化到非结构化数据的统一接入,通过灵活的连接器与自动化ETL流程,帮助企业轻松整合多源数据。其内置的预处理与解析功能能够针对不同数据格式(如PDF、Word、JPEG、视频、音频等)进行智能解析、内容抽取和特征工程,为后续模型训练和推理提供高质量的数据支持。此外,MatrixPipeline还具备数据清洗、增强和标注能力,结合大模型提供的嵌入式标注与自动化特征生成功能,大幅提升数据治理的效率与准确性。通过与MatrixOne数据库的深度集成,MatrixPipeline可以实现无缝的数据流管理,支持高效的数据版本管理和全生命周期追踪。作为企业数据智能化的基础模块,MatrixPipeline简化了复杂的数据管道构建流程,显著降低了多模态数据治理的技术门槛。
MatrixSearch 多模态智能搜索引擎
MatrixSearch是MatrixOne Intelligence平台的多模态智能搜索引擎,专为企业提供强大的跨模态检索与语义查询能力。通过集成向量检索、全文检索和结构化查询,MatrixSearch支持文本、图像、音频和视频等多种数据类型的高效检索,帮助企业从多模态数据中快速获取关键信息。其创新的混合搜索机制结合了语义理解与自然语言查询,能够深入解析用户意图,无论是结构化问题(如SQL查询)还是非结构化场景(如语音指令或文档问答),均可提供精准的检索结果。此外,MatrixSearch内置多路召回与智能排序算法,将向量匹配与关键词检索结果进行综合优化,确保结果的相关性与准确性。凭借对多模态数据的全面支持以及与业务场景深度结合的灵活性,MatrixSearch为企业实现数据驱动决策和生成式AI的智能化应用提供了重要支撑。
解决方案技术特点及优势
MatrixOne Intelligence采用现代IT架构设计的核心原则,构建了一个模块化、高可扩展性和高可靠性的技术体系,充分适应企业多样化的数据和AI应用需求。整个平台基于云原生架构,利用容器化、微服务和分布式计算技术,实现了系统的灵活部署和弹性扩展。模块化设计使各功能组件(如数据集成、治理、存储、AI模型服务、搜索引擎等)独立运行并可自由组合,方便企业根据需求快速调整和扩展业务能力。MatrixOne Intelligence 解决方案在以下六个方面展现了显著的优势。
一站式端到端平台能力
MatrixOne Intelligence提供了一个高度集成的多模态数据智能平台,涵盖从数据接入、治理、分析到应用的全流程。企业无需在多个独立系统间迁移数据或自定义开发,大幅降低实施复杂度和开发成本,实现业务快速上线。
弹性高效的资源调度
平台采用云原生架构和Serverless计算模式,支持CPU、GPU及存储资源的按需扩展和动态调度。存算分离的设计进一步增强了灵活性和经济性,使企业无需复杂的资源规划即可轻松应对业务波动,优化了整体成本结构。
超融合数据处理能力
MatrixOne以单一引擎支持结构化、半结构化和非结构化数据的统一存储与计算,同时兼容OLTP、OLAP、向量、全文、时序等多种混合负载。相比传统的多系统架构,这种超融合方式简化了数据管理流程,显著减少企业在架构设计和运维上的投入,快速释放数据潜能。
动态数据版本管理
MatrixOne内置强大的快照能力,可以对数据版本进行灵活功能,支持对多版本数据的记录、比较和回溯,确保数据处理的可追溯性和一致性。这不仅满足了企业在数据审计和法规合规方面的需求,还能加速AI模型的迭代优化,增强数据管理的灵活性。
AI驱动的高效数据治理
平台内置AI能力,可自动处理文本、图像、音频和视频等多模态数据,完成数据的提取、标注、分类和特征工程,全面提升数据治理效率。企业能够快速构建高质量的AI-ready数据资产,为生成式AI的落地提供可靠支撑。
混合多模态搜索引擎
MatrixSearch集成语义搜索、全文检索和结构化查询能力,支持跨数据库、文档、音视频等多模态数据的检索。其多路召回与混合重排算法确保结果的相关性和准确性,为企业用户提供高效的知识获取体验,并显著提升数据服务能力。