探展WAIC|专访柏睿数据董事长刘睿民:Data+AI智能算力底座将助力解决“千模时代”算力需求

2023-07-10 11:54:53

7月7日,柏睿数据董事长兼首席科学家刘睿民在世界人工智能大会中的区块链+WEB3新发展论坛发表题为“分布式数据库智能算力底座赋能金融WEB3.0”的演讲,分享智能算力底座如何促进金融赋能实体经济。

柏睿数据为国内目前仅看到的推出全内存分布式计算引擎的智能数据算力公司,目前已处于上市辅导阶段。刘睿民是国内资深的数据库研发领军专家,自2014年开始成立团队致力于研发国内首个大规模并行MPP内存数据仓库引擎。后成功其中,以MLOPS为方法论的数据智能开发平台,包括LLMOps平台(大模型开发运维平台)、Rapids VectorDB(向量数据库)等产品,覆盖从数据采集、存储、计算分析到模型训练、部署、应用的全生命周期解决方案。近期,柏睿数据全球创新赋能中心在上海浦东新区授牌,也与多家海内外创新主体联合组建国际AI创新联合体。


(资料图)

刘睿民在接受蓝鲸财经专访时举例,算力基座就相当于引擎,数据就像油,AI、web3等训练、推理、使用数据库的框架都需要靠底层算力。柏睿数据自主研发打造的Data+AI智能算力底座,融合大数据、人工智能、数据计算加速加密等技术,能够满足产业智能下大规模的数据实时计算需求,并向云端演进,让算力不再成为Web3.0发展的瓶颈。

蓝鲸财经:作为已经深耕分布式数据库十年的企业,是否会觉得大众对AI、Web3的关注将带领行业迎来全盛年代?

刘睿民:现在所说的千模万模,基本上都是在应用领域,因为我们是做基础领域,所以说最后无论呈现模式是什么,都要用同样的东西,就是算力。

现在市场需求量的急速扩张,很多人的困扰是模型已经搭建好了,但无法进行训练。我们其实是从国产的角度来做数据库,我们主要研发大内存的全内存分布式计算引擎。当前算力的不足是一个关键问题,其中一项卡脖子的因素是英伟达的A100H100卡,由于禁运很多单位无法获得这个昂贵的卡。而我们的全内存分布式计算引擎通过软硬件协同打通,可以达到196GB的内存容量,相比之下,几年前我们能够实现单板达到1TB内存的规模。从行业角度来看,我们是国内目前仅看到的专注于全内存分布式计算引擎的公司,国外也只有五六家。国内的用户往往在买GPU时会有各种限制,这也面临一些问题。像英伟达等公司,首先推出的是一款爆款产品。这种产品可能价格较高,但随后会推出其他评级较低但价格更为实惠的产品版本。这些版本在性能方面可能达到原产品的六七成,但价格仅为原产品的十分之一。

因此,我们提供相对廉价的算力解决方案,直接利用内存进行训练,创新解决算力问题。

蓝鲸财经:柏睿数据推出的大模型开发运维平台LLMOps平台和其他产品如何助力Web3.0场景的落地?

刘睿民:LLMOps平台赋能了应用端的开发阶段,使用者无需从头开始开发,而是可以借助平台提供的基础底层,通过简单的拖拉拽操作来建立大模型。这意味着用户只需要很少的代码就能完成模型的建立。目前,LLMOps平台在海外的客户中使用较多,因为海外客户相对成熟一些。而国内客户由于接触国外平台的机会较少,所以对LLMOps的了解还不够。在人工智能领域,我们主要吸引了海外客户的关注,比如新加坡的客户。国内的用户也对我们的产品感兴趣,但由于国外资源相对不易获取,所以在某种程度上有些滞后。

这方面目前主要客户是国外的人工智能公司,国外人工贵,他们需要将人工智能应用落地到工业领域中,比如机器人优化、港口调度等场景中的优化问题。过去,他们通常通过编写代码来实现这些优化场景,但现在情况不同了。他们可以在LLMOps平台上进行拖拉拽式建模和试算,然后部署到计算机集群上进行计算。他们可以选择连接到不同的平台,如谷歌、AWS或微软的集群。对于这些客户来说,LLMOps的优势在于低门槛的使用和加速功能的提供。

蓝鲸财经:是否意味着未来高自动化、低代码化的公司会越来越多,这将成为必然发展趋势?

刘睿民:这是必然的。随着人工智能的发展,越来越多的任务和工作将被自动化取代,包括编写简单的代码。这并不意味着复杂的编程工作将完全消失,但对于一般的程序员来说,未来可能会面临挑战。因此,自动化和低代码的趋势将成为主流,这是一种正常的发展过程。在未来的三到五年内,简单的编程工作可能会变得相对无关紧要。

蓝鲸财经:如何理解在WEB3.0特定应用场景中,"FPGA计算引擎+配套软件"如何提供比SmartNIC、GPU和AI大模型加速芯片等通用芯片更强大的专业计算能力?

刘睿民:举例来说,GPU的功能原本是用于打游戏的,它的功能并非专为人工智能而设计,有段时间甚至被用来挖矿。这只是因为大家没有一个芯片来运行更复杂的计算。无论后面的应用场景是什么,通用的东西其实是双精度运算,就是浮点运算。

我们现在把浮点运算的算法都放到了FPDA卡上,配上大内存,然后内存板和内存板之间的通讯,通过我们全内存的分布式计算引擎连接在一起,这样的话用户就能够调动比如说1TB甚至几个TB的内存。

在某种程度上,以后有一种专门运用于AI计算的芯片将成为必然。以前科学计算,尤其是超级计算中,开始使用了GPU,并建立了一个完整的生态系统。后来,GPU被应用于人工智能的训练中,导致我们陷入了这样一个循环。

所以,这是一个逐渐发展的过程,不是说有很多选择可以做。事实上,在进行双精度计算时,以前并没有其他选择,也没有其他人在这个领域有大量研究。现在虽然有了这样的选择,但限制还是很多。

蓝鲸财经:柏睿数据对于数据隐私和安全方面有哪些保障措施和技术手段?

刘睿民:我们使用的是国密,技术路线类似于隐私计算,公司只有一个锁芯,钥匙是掌握在用户手里的。“锁芯”的安全性、稳定性越高,“锁”就越安全,数据就越安全。RapidsDB 总体代码自研率高达99.32%,通过中国信通院、金融信创生态实验室、国家密码管理局商用密码产品等多项国家级测试认证,并在运营商、金融、电力、政务、医疗等多个行业成功落地应用,安全性遥遥领先。

关闭
精彩放送