MatrixOne Intelligence
多模态AI数据智能解决方案白皮书
Your Data for Your AI
解决方案技术流程详解
在明确了解决方案的整体架构及核心能力之后,本章将从数据流转链路 Data Pipeline的角度,详细拆解MatrixOne Intelligence解决方案的技术实施流程,展示从数据接入到智能应用的完整闭环。作为一个面向多模态数据的AI数据智能平台,MatrixOne Intelligence的实施流程涵盖了数据接入与整合、预处理与治理、标注与特征工程、存储与管理、模型训练与评估,以及最终的数据召回与搜索。这些环节共同构成了一个高效的技术体系,帮助企业将分散的多模态数据转化为可驱动业务的智能资产。
整体数据流程
MatrixOne Intelligence解决方案的目的是将企业内部的自有数据变成可以服务于GenAI落地应用的AI-Ready数据,并且对业务产生价值。而这个目标本质上就是提高大模型在企业应用场景下的准确度。
当前行业中有四种较为常见的做法来实现这个目标:提示词工程,RAG,模型精调,预训练。其中提示词工程与RAG都需要基于对企业数据的挖掘,对大模型输入进行更符合场景背景的提示用语,我们可以将其归纳为面向推理的GenAI数据工程。而模型精调及预训练则是将自有数据用于训练更行业化的模型,我们可以将其归纳为面向训练的GenAI数据工程。这两条链路构成了企业GenAI Data Pipeline的基本框架,这两者也可以同时存在并相互配合。而在数据被加工到服务于模型训练或者推理之前,会有公用的数据链路,如数据接入、数据清洗及预处理、数据解析和特征工程的工作。
整体Data Pipeline可以总结到如下流程图中:
接下来我们会逐个分析其中每个关键环节的场景,数据加工的技术要求,以及MatrixOne Intelligence解决方案中的产品能力如何匹配该环节的需求。
数据接入与整合
环节概述
前文已经详细描述过企业客户在面向GenAI应用场景时,企业客户普遍面临新一轮的数据孤岛问题。各类数据源可能分布于不同的数据库(如关系型数据库、NoSQL数据库)、文件系统(本地或云存储)、第三方SaaS应用(如网盘、IM工具)以及边缘设备等环境中。这些数据不仅物理位置分散,格式上也高度异构,涵盖结构化数据(如数据库表)、半结构化数据(如JSON、XML)以及非结构化数据(如PDF文档、图像、视频、音频等)。
这种分散和多样化的数据形态带来了以下关键问题和需求:
-
数据获取与整合复杂:数据分布在多个系统和位置,缺乏统一的接入和管理方式,导致数据整合工作量大且效率低下。
-
非结构化数据处理压力:非结构化数据体量巨大(如视频和音频文件),完全采用中心化的接入方式会带来带宽瓶颈、高延迟和高成本问题。
-
多模态数据标准化:数据格式不一致,解析和标准化过程繁琐,难以直接为AI建模和应用提供支持。
-
安全性与权限管理:跨部门或跨系统的数据访问需要精细化的权限控制,确保数据在接入和管理过程中的安全性和合规性。
因此,本环节的核心目标是解决数据的分散和异构性问题,构建一个支持多数据源统一接入、云边协同处理和分布式管理的架构。通过高效整合结构化、半结构化和非结构化数据,并提供灵活的权限控制和标准化处理能力,为后续的AI建模和智能化应用奠定坚实的数据基础。
技术流程
在数据接入和整合环节,MatrixOne Intelligence通过MatrixPipeline产品提供了一整套强大的功能模块,以高效、安全地实现多数据源的整合和管理,具体包括以下过程:
多源异构数据的统一接入
-
广泛的数据源支持:支持连接结构化数据(如MySQL、PostgreSQL)、半结构化数据(如JSON、XML)以及非结构化数据(如PDF、图像、音视频),并通过标准化接口与主流第三方SaaS应用(如百度网盘、飞书)无缝集成。
-
虚拟化接入:通过Data Fabric架构,支持对分布式数据的逻辑统一访问,无需数据物理迁移即可完成接入与治理。
云边协同数据处理
-
边缘侧数据初步处理:针对非结构化数据量大的场景(如视频、图片数据),支持在边缘设备完成数据采集、过滤和压缩,将精简后的数据上传至云端,减少带宽占用和传输延迟。
-
云端集中管理:云端处理复杂的多模态数据解析和深度检索任务,实现云边协作,提升处理效率和数据响应速度。
实时与批量同步能力
-
实时数据接入:通过实时流处理工具,支持实时数据流的接入,确保企业能够及时响应动态业务需求。
-
批量历史数据加载:支持从传统存储系统或数据仓库中高效导入历史数据,为全量分析构建完整的数据视图。
分布式元数据管理
-
全局元数据目录:建立分布式元数据索引,对多位置、多格式的数据进行统一管理和定位,快速检索数据而无需直接访问源文件。
-
智能化数据调度:根据数据访问频率和业务需求,动态优化数据的存取路径,在边缘和云端间实现资源最优分配。
安全性与权限控制
-
精细化权限管理:基于角色的访问控制(RBAC)机制,为不同用户和部门提供多层级权限配置,确保数据的使用和共享安全合规。
-
加密与脱敏:支持数据传输中的SSL加密,以及敏感数据的脱敏存储,全面保障数据安全。
通过上述能力,可以有效的解决企业在多模态数据接入与整合环节的难题,为后续的AI建模和智能化应用奠定了坚实的数据基础。
产品能力
在数据接入与整合环节,MatrixOne Intelligence通过以下核心产品提供支撑能力:
MatrixPipeline数据连接器
-
提供灵活的各类数据连接器,支持多种异构数据源的快速接入。
-
内置流处理和批量数据同步能力,支持实时与历史数据的高效导入。
-
提供数据标准化工具,包括格式转换、元数据生成和权限控制功能。
-
支持边缘节点与云端协同工作,通过边缘设备完成数据的初步解析和压缩。
-
在云端集中处理复杂任务,并通过智能调度优化资源使用。
MatrixOne多模态数据管理
-
MatrixOne作为统一的云原生多模态数据库平台,支持结构化、半结构化和非结构化数据的融合存储。
-
MatrixOne通过Datalink及Stage能力直接链接外部存储中的数据,实现Data Fabric架构。
-
MatrixOne具备ACID能力,可以保证在数据导入和传输过程中exactly-once的能力。
-
MatrixOne提供分布式元数据管理和全局索引服务,支持跨节点快速检索。
数据预处理与解析
环节概述
在整体方案中,预处理和解析是数据从原始状态转化为高质量AI-ready数据的关键环节。从上一个环节中,我们提取了大量以各种格式存在的非结构化数据,例如文档类的DOCX、PPT、PDF、Markdown等,图片类的JPG、BMP、SVG等,音频类的WAV、MP3、WMA等,视频类的MP4、MOV等,网页类的HTML。然而,这些数据由于格式多样化、内容复杂性高、数据质量不一,无法直接输入到AI训练或推理流程中。预处理和解析的目标是统一处理这些多模态数据,将其转化为结构化或半结构化的形式,同时提升数据的质量和一致性。这包括清洗冗余数据、修复缺失值、提取内容的核心特征,例如从文档中提取文本信息,从图片中识别对象和场景,从音频中转录语音文本,以及从视频中提取关键帧与标签。通过标准化的方式统一格式并消除噪声,为后续的建模、训练和推理打下坚实基础。同时,该环节还需要支持自动化处理流程,以便应对大规模、多格式、多模态数据的高效转换和解析需求,从而最大限度降低手动操作成本并提升处理效率。
技术流程
在数据预处理及解析环节,MatrixOne Intelligence结合MatrixPipeline自动化管道和MatrixGenesis的智能解析能力,提供了一整套高效、灵活的解决方案,覆盖从数据清洗到数据解析的完整链路。
数据预处理
针对所有的非结构化数据文件,都会经过以下三个基本流程:
-
首先会经过格式的较验,检查文件名中标记的文件类型与实际类型是否匹配。
-
其次会进行数据去重,针对文件进行MD5的校验,以去除相应的重复数据。
-
然后,再将数据进行格式的归一化,文档类及网页类数据统一转换成pdf格式,图片类数据统一转换成jpg格式,音频转换成wav格式,视频转换成mp4格式,以对后续的流程进行统一管理。
这里的数据预处理工作都可以通过MatrixPipeline中预制的数据预处理模块而完成,同时也支持用户自己编写代码,将自定义的数据预处理脚本打包成服务注册到MatrixPipeline中进行执行,以输出相应的结果。
文档数据解析
在各个类型的数据都被统一成相应的格式后,针对每一类型数据都有相应的解析模块。针对被统一成pdf的文档数据,其将经历以下的解析流程,以尽量多的从中提取出有效数据及元信息:
-
PDF版式与信息块识别:对输入PDF文档进行布局解析,识别并分块提取图片、表格、图表和文本等信息块。
-
文本数据解析:提取文本的元数据和原始内容,并将文本按照用户设定的逻辑或系统指定的逻辑进行切片,后续可针对切片进行向量化Embedding。
-
图片数据解析:提取PDF中的图片内容,对其同时进行视觉模型反推、OCR文本提取,后续再将图片本身进行向量化Embedding。
-
表格数据解析:利用表格识别算法提取表格中的结构化数据,并通过元数据描述其版式,支持复杂嵌套表格的递归解析。
-
手动调整与优化:同时支持用户对自动化解析结果进行手动调整,优化分块、标注和元数据内容,提升解析质量。
多媒体数据解析
而面对图片、音频、视频等多媒体类型,其将经历额外的数据预处理后,沿用或增加部分数据解析流程,已形成更有效的结构化数据:
-
面对JPG图片数据,将直接复用文档类数据中提取到图片后的相关解析流程。
-
面对WAV音频数据,则先采用ASR使其变成文本,再同时将音频数据及文本数据同时进行Embedding向量化。
-
面对MP4视频数据,将先其拆成语音及视频数据,语音数据复用上一步流程,而视频将采用差分抽帧后再走图片的解析流程。
产品能力
在数据预处理与解析环节,以下产品能力对上述技术流程可以形成强有力的支撑:
MatrixPipeline数据管道能力
-
提供自动化的数据管道能力,支持数据预处理模块的配置与执行。
-
内置丰富的预处理模板,如数据格式校验、去重、归一化,用户可扩展自定义功能。
-
通过可视化操作界面简化管道设计,支持大规模数据的并行处理与调度。
MatrixOne多模态数据统一建模
-
支持多模态数据的统一存储及建模,包括元数据、解析数据及Embedding数据。
-
提供动态分区和分布式存储能力,保障数据存取的高效性和一致性。
-
内置强大的查询能力,可快速定位解析结果,为后续分析和建模提供支持。
MatrixGenesis 模型服务及AI数据解析
-
提供智能解析模块,支持PDF布局分析、OCR、ASR等多模态数据解析功能。
-
集成大模型能力,用于图像反推、文本语义提取及多模态特征生成。
-
通过分布式计算及GPU加速并行计算支持大规模解析任务的高效执行。
特征工程
环节概述
特征工程是将从数据转化为模型可用的特征表示的关键环节,在AI模型训练与推理中起着核心作用。一个高效的特征工程流程不仅需要支持特征的生成与管理,还需要解决训练和推理特征一致性的问题,确保模型在生产环境中的稳定性和准确性。上一环节已经从多模态数据中解析出详细的各种格式的内容,而本环节将进一步根据需要训练及推理模型的特点从中提取相关数据特征,形成特征库Feature Store。
MatrixOne Intelligence通过提供强大的Feature Store能力,构建统一的特征管理平台,实现特征的生成、存储、共享和复用。Feature Store在训练和推理流程中扮演了桥梁的角色,通过统一特征存储与访问机制,确保训练和推理使用的数据一致性,大幅提升AI应用的开发与运营效率。
技术流程
特征生成
- 特征提取:从结构化和非结构化数据中提取关键特征,例如文本向量、图片的视觉向量、音频的频谱特征等。
特征加工与派生
-
上下文增强:对于语义Embedding,结合上下文窗口(sliding window)策略生成片段级、文档级语义特征。使用链式提示(Chain-of-Thought Prompting)生成逻辑增强特征。
-
对齐与正则化:在多模态场景中,采用对齐损失(Contrastive Loss)优化不同模态之间的嵌入表示。标准化特征范围以适配不同模型的输入需求。
-
特征分层:针对多任务场景,生成任务专用特征(如分类任务的标签增强特征,生成任务的提示优化特征)。
特征存储与版本管理
-
嵌入向量存储:将文本、图像和多模态生成的Embedding向量统一存储到向量数据库,便于高效检索和相似度计算。
-
元数据存储:保存特征生成的上下文信息(如模型版本、生成时间、输入特性),便于追溯和分析。
-
版本控制:为生成的特征分配版本号,确保模型训练与推理使用一致的特征版本。
特征优化与选择
-
语义优化:对Embedding特征进行去噪处理,例如通过降维技术(如PCA)或稀疏化处理减少无效信息。
-
对抗性增强:利用对抗性样本(adversarial samples)生成更加鲁棒的特征,以增强模型对异常输入的适应能力。
-
任务相关性评估:通过特征重要性分析(如SHAP值)评估特征对具体任务的贡献,优化特征集合。
特征验证与服务化
-
验证一致性:检查训练阶段与推理阶段的特征一致性,确保生产环境的稳定性。
-
实时服务化:将生成的Embedding特征提供为实时服务,支持在线推理和相似度检索需求。
-
跨场景复用:支持特征跨任务、跨场景复用(如通用语义Embedding在搜索、对话和推荐场景中的共享)。
产品能力
在特征工程环节,MatrixOne Intelligence提供了强大的产品能力支持,涵盖多模态存储、版本管理、在线服务和Embedding特征生成,具体包括:
MatrixOne多模态存储及版本管理
-
多模态支持:MatrixOne数据库能够统一存储来自文本、图像、音频和视频的Embedding向量及相关元数据,支持多模态特征的高效管理。
-
高并发与低延迟:MatrixOne支持OLTP的负载,同时分布式架构支持大规模特征存取和高并发在线服务,满足实时推理和相似度检索的需求。
-
动态版本控制:MatrixOne提供快照机制,自动记录特征生成的版本状态,确保训练与推理使用一致的特征数据版本。
-
回滚与追溯能力:支持对特定版本特征的回滚操作,方便模型问题排查和历史重现。
MatrixGenesis的Embedding支持
-
预训练模型支持:MatrixGenesis内置强大的预训练模型(如BERT、CLIP、Wav2Vec2.0等),支持文本、图像和音频的语义Embedding生成。
-
模型可扩展性:支持用户加载自定义的Embedding模型,以满足不同业务场景的特定需求。
数据标注与增强
环节概述
数据标注与增强环节是在原始数据解析的基础上,针对特定训练任务和模型需求进行数据的进一步加工、治理和生成,以构建高质量的训练集、验证集和测试集。这一环节旨在满足多样化模型(如大语言模型LLM、文生图模型、视频理解模型等)的精调需求,同时确保数据集的格式与内容符合训练要求,并具备灵活的分类、管理和更新能力。
数据标注与增强的核心输入是经过解析和初步特征化的数据,输出为特定任务定制的标注数据集,并支持进一步的数据增强与分类操作。通过这一环节,企业能够快速构建满足精调需求的数据集,为高质量模型训练和评估提供保障。
技术流程
数据标注与训练集生成
-
面向大语言模型(LLM)精调:从数据库中召回相关语料和知识数据。利用预训练大模型生成初步的input-output数据对。对生成结果进行人工审核和优化,确保数据质量和格式一致性,最终生成适合SFT、LoRA等方法的input-output格式数据集。
-
面向文生图模型精调(如Stable Diffusion): 提取原始图片数据并生成关键词形式的描述。通过反推模型生成初步描述,或结合人工标注优化文本内容。将图文对组合为input文-output图格式,符合精调要求。
-
面向图像反推模型精调:提取图片内容并生成描述文本,强调语义和细节关联。优化描述内容以满足反推模型的文本生成要求,以生成以图文对为核心的input图-output文数据集。
-
视频理解模型精调:根据语义对原始视频进行切片和整合,提取关键帧作为图片。为每段视频生成文本描述(如场景描述、行为描述),形成input图-output文格式。
数据增强
-
文本数据增强:调用大模型生成同义替换版本的句子或段落,保持语义一致性。补充语境信息,例如在对话式训练集中生成更复杂的上下文链条。
-
图文数据增强:为原始图片生成多版本文本描述(关键词、短语、长段文字)。调用扩展模型生成与原始图像风格相似的新图片,配合对应描述文本,扩展训练集规模。
-
视频数据增强:在现有视频切片的基础上,调用大模型生成新的语义描述。增加视频帧的多种切片组合,扩展小段视频样本的数量和多样性。
数据分类与版本管理
-
数据集划分:将增强后的数据集按照任务需求划分为训练集、验证集和测试集(如70%-20%-10%)。采用随机分组(如ID哈希、时间戳分组)或特征驱动分组,确保数据分布均衡。
-
版本管理:记录每次数据集更新的版本,确保数据的可追溯性和一致性。在多次模型训练和评估后,选择最佳版本的训练集用于大规模精调。
产品能力
MatrixOne快照与分组
-
提供快照和版本管理功能,确保数据集的更新可追溯性和一致性。
-
高效分组能力支持大规模随机数据划分操作。
MatrixGenesis大模型服务
-
提供各类大模型托管服务能力,用于生成图文对、文本描述和语义增强内容。
-
支持结合人工审核优化生成结果,提升数据标注效率与质量。
MatrixPipeline数据pipeline任务
-
提供自动化数据增强与分类工具,通过可配置流程完成大规模数据的治理和分组。
-
支持用户自定义数据处理逻辑,灵活应对不同任务需求。
模型训练与评估
环节概述
模型训练与评估是GenAI落地过程中的核心环节,旨在通过对高质量数据集的训练构建符合业务需求的AI模型,并通过科学的评估方法验证模型性能,确保其在实际场景中的可用性和稳定性。在GenAI(如大语言模型LLM、文生图模型、视频理解模型)应用中,训练往往需要处理大规模数据,涉及深度模型参数优化、分布式计算以及高效资源管理。
本环节的核心输入是数据标注与增强阶段生成的训练集、验证集和测试集,以及预训练模型或基础模型(如Qwen、Stable Diffusion)。核心输出是经过精调的任务专用模型和全面的评估指标结果,用以指导模型的上线与优化。
技术流程
训练准备
-
数据加载与预处理:从数据库中加载训练集、验证集及测试集,按批次组织输入数据。结合训练任务的需求(如多模态对齐、序列预测等)对数据进行实时预处理(如归一化、分词、补全)。
-
资源调度:分配计算资源(如GPU集群)并配置分布式计算环境。动态调度存储、计算和通信资源,确保资源利用率最大化。
模型精调
-
精调方法:全参数精调:针对高优先级任务,通过全参数训练调整模型。
-
增量训练:针对小规模数据集,采用LoRA或参数高效微调方法提升效率。
-
Prompt调优:基于任务设计Prompt模板,通过优化输入模式提升生成效果。
-
-
优化过程:使用分布式梯度下降(如AdamW、LAMB)优化模型参数。
- 结合混合精度训练(FP16/FP32)提升训练效率,减少显存占用。
模型评估
-
验证过程:在每轮训练后,使用验证集评估模型性能(如损失值、准确率、F1分数等)。
- 针对生成任务,采用BLEU、ROUGE等语言生成指标,或FID、CLIP Score等视觉生成指标。
-
测试与分析:在测试集上评估模型的通用性能和泛化能力。
- 对比不同模型版本,选取性能最优的版本进行部署。
迭代优化
-
模型调参:分析训练过程中的超参数对性能的影响,优化学习率、批次大小、正则化参数等。
-
数据回馈:结合评估结果,分析错误案例,对训练数据集进行优化与增强。
模型保存与版本管理
-
模型存储:将精调后的模型及相关元数据(如超参数配置、评估结果)存储到数据库中。
-
版本控制:对每次训练生成的模型进行版本化管理,支持回滚、比较和复用历史模型版本。
产品能力
MatrixOne融合存储及快照
-
高效数据加载:支持从多模态数据存储中快速加载训练数据,提供高性能分布式查询和批量数据预处理能力。
-
模型与元数据存储:统一存储精调后的模型及其相关元数据,支持版本化管理和快速检索。
-
快照功能:记录训练数据及模型的状态,确保训练与评估过程的可追溯性和复现性。
MatrixGenesis训练工具箱
-
预训练模型支持:内置丰富的预训练模型(如Qwen、Stable Diffusion),支持多模态和任务特定的模型精调。
-
高效优化框架:提供分布式训练框架,支持大规模模型的高效训练与微调。
-
多模态评估:内置针对文本、图像、视频等多模态任务的多样化评估工具。
RAG召回与搜索
环节概述
RAG(Retrieval-Augmented Generation)是GenAI的一种关键技术,通过将知识检索与生成模型相结合,使大模型能够在推理过程中动态调用外部知识库,提升生成内容的准确性和可控性。
在RAG召回与搜索环节,系统的核心目标是从海量数据中快速检索与用户查询相关的高质量内容,并将其作为上下文提供给生成模型,以增强模型的生成效果。这一过程既包括传统的全文检索(如基于关键字的BM25算法),也包括语义级别的向量检索(如基于Embedding的语义匹配)。最终,结合多模态数据的搜索与检索优化,RAG系统能够满足从文本、图片到音视频的多样化应用需求。
该环节与应用侧的交互息息相关,用户将使用自然语言及多模态数据进行输入查询,而系统将负责从用户自有数据中召回最相关的数据,并返回给用户。
技术流程
多模态数据索引构建
-
数据预处理:对存储库中的多模态数据(文本、图片、视频等)进行预处理和标准化。
-
索引类型:通过BM25等传统方法为结构化和文本数据构建关键字索引。利用Embedding模型生成向量化表示,并通过FAISS、ScaNN等工具构建高效向量索引。
-
多模态支持:针对图像、视频等非文本数据,生成语义嵌入向量,支持跨模态检索。
检索与召回
-
检索策略:单路检索使用关键字匹配或语义匹配完成单一通道检索。多路召回结合全文检索和语义检索的结果,通过混合排序优化召回性能。
-
多模态检索:支持跨模态查询,例如文本查询图片,图片查询视频内容,或者结合多种输入类型完成混合查询。
-
动态更新:对新增数据或实时变化数据动态更新索引,确保召回结果的时效性。
候选上下文生成与排序
-
初筛阶段:快速召回候选内容,依据检索算法生成初步相关性排名。
-
精排阶段:结合多模态特征及上下文一致性对候选结果重新排序,确保与用户查询的语义和任务目标高度一致。
-
多模态融合:根据检索结果类型(文本、图片、视频等)融合不同模态内容生成最终上下文。
上下文交付与模型增强
-
上下文拼接:将召回的内容整合为输入格式(如文本段落或嵌入向量),提供给生成模型。
-
反馈优化:结合用户反馈数据优化召回与排序策略,提升模型推理的精准性和相关性。
产品能力
MatrixOne数据库的检索能力
-
统一数据存储:支持结构化和非结构化数据的融合存储,方便多模态索引与检索。
-
全文与向量检索结合:内置全文检索和向量检索能力,支持混合查询与动态召回。
-
高效索引管理:提供分布式索引构建与更新机制,确保大规模数据的高效检索性能。
MatrixGenesis的模型支持能力
-
Embedding模型支持:内置语义嵌入模型(如BERT、CLIP),针对文本、图像、音视频生成高质量向量化表示。
-
多模态支持:支持跨文本、图像、视频的嵌入生成与模态对齐,为语义检索提供底层支持。
MatrixSearch的多模态检索能力
-
多模态语义检索:结合语义和全文检索,支持文本、图像、音频、视频等多模态数据的统一查询。
-
跨模态查询支持:实现文本检索图像、图像检索视频等复杂查询,满足多样化业务场景需求。
-
分布式扩展与高并发性能:支持大规模检索场景,确保高并发和低延迟的查询响应。
总结
通过对技术流程的逐步拆解,MatrixOne Intelligence全面展示了从数据接入到智能应用的完整闭环。针对企业在GenAI落地过程中面临的数据分散、异构复杂、规模化处理及智能化应用等挑战,方案提供了统一的数据接入与整合、高效的预处理与解析、多模态特征工程、精准的数据标注与增强,以及强大的模型训练与评估能力。通过RAG召回与搜索环节的优化,进一步提升了大模型推理阶段的准确性和业务适配性。借助MatrixOne数据库、MatrixPipeline、MatrixGenesis、MatrixSearch等核心产品,方案实现了数据治理、存储、计算与智能模型能力的无缝协作。整体流程以模块化、自动化、高性能为设计原则,为企业构建了一套面向GenAI应用的高效数据智能平台,加速AI应用的开发与落地,为企业充分释放多模态数据价值提供了有力保障。