导读
近日,由数据猿和上海大数据联盟主办,上海市经济和信息化委员会、上海市科学技术委员会指导的“第六届金猿季&魔方论坛——大数据产业发展论坛”在上海市四行仓库举行,吸引了数百位业界精英的参与。
本次论坛以“小趋势·大未来”为主题,围绕大数据产业的各个领域进行分享。矩阵起源创始人及 CEO 王龙,受邀参与“大数据 + 大模型,挖掘数据智能‘金矿’”圆桌论坛,与另外四位嘉宾一同深入探讨了 4 个问题,本文整理了王龙的分享内容,他就数据集质量、大模型对大数据产业的影响、2024年大模型应用爆点以及大模型与大数据融合面临的问题和挑战进行了盘点与分析。
本文字数:1800+字
阅读时间:5分钟
Q1
数据集的质量和规模如何影响大模型性能?如果要构建良好的行业大模型,对于数据集会有什么要求?
大模型是用户可以采集到的所有训练数据集的一张缩略图。数据集的内容和质量对于大模型的训练质量会有根本性影响。另一方面,在例如金融、证券、能源和制造等很多传统行业落地时,大模型生成的内容需要是精准而实时的。在这些行业,如何和知识图谱、训练数据、结构化数据结合,避免大模型出现幻觉与错误是至关重要的问题。大模型需要和外部大数据结合,形成链路闭环,这样才既能在平时“一本正经的胡说八道”,又能够在需要时给出实时和精准的信息。
Q2 大模型对大数据产业和大数据的各个环节有新的影响? 大模型是一个利用 transformer 架构来预测、推断和决策的概率系统,而基于检索的传统大数据会带来既可控又准确的结果,大部分情况下概率系统和精确系统的结合是有必要的。矩阵起源团队很早就开始思考大模型与大数据的结合点,DB for AI、AI for DB、AI in DB、AI with DB, 存在多种合作模式,数据库智能运维,用户交互,知识库与智能问答,训练和推理都是一些可行的方向。用户可以使用大模型运用预处理的日志进行数据库的故障诊断;使用大模型按照场景写出所需要的 SQL 语句;运用大模型帮助企业建立知识库与BOT,但这些落地也都有各自的挑战。例如在构建企业知识库时,有可能回答出现产生10,000条数据时期中1条数据是错误的情况,糟糕的是用户并不知道错误的是哪条,也不知道到底什么时候出错。矩阵起源的一个思路是使用 RAG 模式或者使用大模型给出直接答案的时候,对输入和输出进行评估,如果需要精确实时信息而大模型自身又无法判断的时候,我们就会重定向到知识图谱或是结构化数据库中寻找精准的答案,即一个能实现大模型诊断的数据管理系统。这个技术难度非常高,但者也是大模型在行业落地中最关键的难题之一。
Q3 2024年大模型应用的爆点是什么?
我认为爆点会出现在大模型的上下游,从上游的角度考虑,一定会有一种新型的 Platform 或者 Infra 来解决大模型的训练和推理成本以及效率和幻觉问题,当然我希望在20年后回头看时,矩阵起源就是是这么一家公司。从下游角度来看,我认为爆点是多模态的内容生产,短视频、AR、VR 这类对内容有强需求的领域,大模型如果能够帮助其打破内容创作的瓶颈,会有很大的机会。也许未来的抖音、微信已经在酝酿之中了。
Q4 如果要将大模型和大数据进行融合,会遇到哪些问题和挑战?
难点在于需要有标杆型的行业应用出现,很多公司会发现大模型在行业落地成本极高,算一下账发现,还不如使用传统手段。这需要企业客户以及厂商对大模型的价值边界和局限性,以及自身的应用场景有较为清晰的认知,做好落地准备和执行,同时也要意识到企业的管理和运营策略也需要做相应的变化,才能最大化的发掘大模型的价值。
关于矩阵起源 矩阵起源是是业界领先的大数据及数据库管理系统(DBMS)技术和服务提供商,主要团队成员来自国内外知名科技公司,具备强大的创新能力。矩阵起源的目标是打造并使用世界一流的数据基础设施技术和产品,协助企业实现从信息化、数字化到智能化的转型和升级。矩阵起源在云计算、数据库、大数据及人工智能相关领域拥有核心竞争力,具备广阔的行业和国际视野以及前瞻性,能够快速有效的将先进技术在不同领域实用化并规模化扩展。 MatrixOne 矩阵起源的核心产品MatrixOne,是基于云原生技术,可同时在公有云和私有云部署的多模数据库。该产品使用存算分离、读写分离、冷热分离的原创技术架构,能够在一套存储和计算系统下同时支持事务、分析、流、时序和向量等多种负载,并能够实时、按需的隔离或共享存储和计算资源。MatrixOne能够帮助用户大幅简化日益复杂的IT架构,提供极简、极灵活、高性价比和高性能的数据服务。 关键词:超融合数据库、多模数据库、云原生数据库、国产数据库