大模型数据计算系统PieDataCS

拓数派旗下大模型数据计算系统(PieDataComputing System,缩写PieDataCS),围绕数据组织云原生计算系统,重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可控的大模型数据计算系统保持全球领先。
申请使用

产品名称:

 

大模型数据计算系统PieDataCS

 

产品简介:

 

拓数派旗下大模型数据计算系统(PieDataComputing System,缩写PieDataCS),围绕数据组织云原生计算系统,重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可控的大模型数据计算系统保持全球领先。

 

PieDataCS运用先进的软硬件技术,可按需创建机器学习、向量和数仓等各类计算引擎,充分利用和发挥数据规模优势,构建核心技术壁垒,让大模型技术全面赋能行业AI场景应用。

 

产品定位:

 

大模型数据计算系统,以云原生技术重构数据存储和计算,全面升级大数据系统至大模型时代,赋能行业AI场景应用。让企业具备传统大数据分析能力的同时,也具备基于大模型的AIGC能力,支持结构化数据、半结构化数据以及非结构化数据的统一处理,真正的做到多模态数据计算。目前大模型数据计算系统,面向国内市场提供云上云版、社区版、企业版、一体机四个版本,满足企业不同业务场景需求。

 

产品说明:

 

拓数派旗下大模型数据计算系统(PieDataComputing System,缩写PieDataCS),充分利用云原生技术,提供高度可扩展性和弹性,让 AI 数学模型、数据和计算三者互为增强。通过PieDataCS,拓数派可以帮助企业更好地应对日益增长的数据和复杂的计算任务,赋能行业AI场景应用,为企业创造更大的商业价值,成为AI的基础科技底座的同时,开启AI技术的新范式。

 

PieDataCS 支持灵活扩展的数据引擎,包括关系型数据库 SQL引擎、Spark/Flink 等流批⼀体处理、LLM 的向量数据计算引擎以及GIS地理数据库等。PieDataCS 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化以及非结构化数据),实现数据共享和分析。PieDataCS 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃,让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。

 

 

 

A screenshot of a video game

Description automatically generated

 

 

●云原生虚拟数仓 PieCloudDB

PieDataCS 首款数据计算引擎 PieCloudDB,为支持 SQL 语言模型而建立,兼容 HTAP,为企业提供全新基于云数仓数字化解决方案,全面升级Hadoop大数据和Greenplum数仓至云原生数据平台,助力企业建立以数据资产为核心的竞争壁垒,以云资源最优化配置实现无限数据计算可能。

 

PieCloudDB 采用领先的数仓虚拟化技术,将多个数仓统一整合到一个高可用的云虚拟数仓,打通多云的数据管道,数据计算资源按需扩缩容,提升数仓的敏捷性和弹性,助力企业降低数仓管理复杂度,具有可扩展性、灵活性和可靠性等优点。

 

●向量数据计算引擎 PieCloudVector

PieDataCS 第二款向量云原生向量计算引擎 PieCloudVector,为支持和大模型配合的向量计算而建立,是大模型时代的分析型数据库升维,助力多模态大模型AI应用,进一步实现海量向量数据存储,向量数据高效查询,支持和配合大模型的 Embeddings,帮助基础模型在场景AI的快速适配和二次开发,大模型应用必备。

 

PieCloudVector 具备高效存储和检索向量数据、相似性搜索、向量索引、向量聚类和分类、高性能并行计算、强大可扩展性和容错性等特性。支持结构化数据和非结构化数据的Embedding数据,通过Data Sharing技术方便直观的共享Fine-tune数据。PieCloudVector 可以提供精确搜索和模糊搜索两种搜索模式,支持近似向量搜索 KNN-ANN、主流的 ANN 算法(如 IVFFlat 和 HNSW 等)、向量压缩(PQ)、SIMD/GPU 加速和 Langchain 框架。为AI大模型提供RAG框架,让大模型拥有记忆,减少重复的大模型推理,提高相应速度和性能。

   

●(大模型)机器学习 PieCloudML  

PieDataCS 第三款计算引擎 PieCloudML 为支持 Python 和 R 的机器学习语言而建立 ,兼容湖仓一体。PieCloudML 可整合企业所有多模态数据资源,提供多模态大模型下数据计算支撑,更贴近数据科学家的需求和使用。目前已进入 Beta 阶段。

 

PieCloudML 计算和存储弹性,全面兼容主流机器学习生态。原生交互简墨存储,充分体现了湖仓一体架构优势。PieCloudML 提供探索性数据分析工具,使用笔记本进行交互式建模,优化数据准备和ML建模过程,利用 PySpark/Python、SparkR/R和Scala 工具进行大规模数据预处理和模型训练开发。

 

 

 

 

产品核心功能:

 

a)  全自研Table Format技术

b)  云原生存储架构,原生支持数据治理,元数据、数据、计算三权分离

c)   全链路加密保证数据安全

d)   DataSharing 技术原生支持数据要素流转

e)   简墨数据湖等技术有效组织数据配合大模型精调

f)   全面支持HTAP、湖仓一体和向量计算

g)  支持大语言基础模型和私域数据结合开发垂直应用

h)  公有云、私有云、及混合云,按需部署

i)   数据一次入库永不出户,数据可用不可见,跑算力不跑数据

 

产品亮点:

 

 

●云原生下eMPP计算引擎,大模型数据计算新范式

PieDataCS打造全新eMPP云原生架构,突破PC时代MPP架构所面临的瓶颈,提供高度可扩展性和弹性,打破数据孤岛,全面升级Hadoop 大数据和Greenplum数仓至云原生数据平台。

 

统一存储格式,一份数据,多引擎计算

PieDataCS以云原生技术重构数据存储和计算,一份数据,多引擎数据计算。主要解决海量数据的存储和实时计算问题,具备湖仓一体化的能力,用户可根据实际情况去选择合适的数据计算引擎。

 

全面支持大语言基础模型和私域数据结合做垂直应用

PieDataCS 具备多模态Embedding 数据处理能力,可通过Data Sharing技术方便直观的共享Fine-tune数据,并支持为AI大模型提供RAG框架,赋予AI大模型记忆能力。

灵活架构,支持单机、高可用及分布式(存算分离、存算一体)等架构

PieDataCS可根据业务实际的需求,采用灵活的架构进行部署,支持单机、高可用以及分布式等架构,在分布式架构中支持存算分离和存算一体两种形态。

 

自主可控,兼容国内主流信创环境

PieDataCS 由拓数派自主研发,拥有 eMPP 等多项专利和软著,自主可控。PieDataCS 全面适配主流国产基础软硬件产品,兼容信创环境,并具备信创相关资质认证

 

 

 

产品参数:

 

 

产品版本:V3.0

操作系统:Ubuntu/RedHat/银河麒麟/OpenCloudOS/OpenEuler等国内外主流操作系统

所属类别:人工智能/数据分析/技术开发

 

上架时间:2024年4月1日

 

 

适用场景:

 

Diagram

Description automatically generated with medium confidence

 

产品优势:

 

极致性能

PieDataCS 对数据查询的执行流程在查询执行器中进行了全链路的优化,打造了向量化执行器,提供亚秒级实时计算,完整支持 TPC-H 和 TPC-DS 等基准测试。

●安全稳定

PieDataCS 通过数据透明加密(TDE) 、服务器无感知技术 (Serverless)、以及S3 存储和跨云灾备能力保证了数据安全,确保业务连续性。

 

●智能分析

PieDataCS支持多种计算引擎,结合拓数派数据科学家团队经验,可提供模型算法优化,进行交互式分析;

 

●敏捷可靠

PieDataCS 云原生eMPP(弹性大规模并行处理)架构,结合云原生的优势,支持存储和计算的弹性伸缩,满足企业高可用和敏捷性的业务场景需求;

 

●降本增效

PieDataCS 存算分离架构支持存储和计算按需扩展,通过数据压缩、按需启停、对廉价的对象存储的支持等特性帮助企业降本增效

 

●数据共享

PieDataCS 通过独立元数据管理,实现跨云/DC联邦集群数据共享,支持细粒度管控。

 

● 统一管控

PieDataCS 提供了云原生平台支持可视化运维管理,具备监控告警、备份恢复、日志分析和审计等功能。

 

 

 

 

 

 

 

产品详情

试用申请

联系我们
Email: contact-us@flashcat.cloud

或者提交下面表单,我们会及时与您联系

产品名称 *

您的姓名 *

公司名称

手机号码 *

工作邮箱

首页    技术开发    大模型数据计算系统PieDataCS