奥工科技算力服务平台(OGSP)
产品名称:
奥工科技算力服务平台(OGSP)
产品简介:
OGSP(Ongineer Service Platform)是奥工科技自主研发的、面向用户的、安全、可进化的超智融合算力服务平台。平台秉承云原生设计理念,构建涵盖基础侧、平台侧、应用侧的算力生态服务架构,实现基础侧的稳定、健康、可扩展,平台侧的高效、动态、易用,以及应用侧的专业、交互、场景化能力。OGSP将服务产品化、产品场景化,帮助用户在科研、教学、工程应用等多场景中获得一站式超智融合算力服务,满足高性能计算(HPC)与人工智能(AI)任务的融合运行与高效管理需求。
产品定位:
OGSP定位为面向高校、科研院所及企业研发部门的通用型超智融合算力管理平台,通过统一的调度入口和资源池,实现HPC任务与AI任务的协同运行与融合管理,助力科研与生产的数字化转型。
产品说明:
OGSP基于云原生与模块化架构设计,集成了作业调度管理、资源监控分析、安全合规管控、应用门户、数据管理等核心功能模块。平台兼容多种调度系统(如SLURM)及容器运行环境(如enroot、Singularity),并可适配国产芯片与多种异构硬件。其统一的Web门户为不同角色用户(教师、学生、课题负责人、管理员)提供个性化操作体验,支持从作业提交、监控到结果获取的全流程管理。
产品核心功能:
1.统一调度与融合运行:支持HPC批处理任务与AI容器任务的协同调度,消除“系统分离、调度分裂”的痛点。
2.多角色与多权限支持:针对教师、学生、科研人员、管理员等不同角色,提供差异化权限与操作界面。
3.资源监控与可视化:作业状态流转图、GPU/CPU热力图、瓶颈分析及利用率趋势分析。
4.容器支持与灵活部署:集成enroot、Singularity等容器运行环境,支持多类型AI训练与推理任务快速上线。
5.数据与作业管理:任务输入输出管理、作业日志在线查看、运行过程可追溯。
安全与审计:支持多因子认证、基于LDAP的统一身份认证、操作审计与任务可追踪。
产品亮点:
1.融合调度创新:在SLURM原生架构基础上引入容器任务管理机制,实现传统仿真作业与AI任务的并行融合运行。
2.极简使用体验:通过Web门户降低算力平台的使用门槛,科研人员无需掌握复杂命令即可提交任务。
3.国产化与异构兼容:适配飞腾、鲲鹏、DCU、NPU等国产芯片,支持多种硬件架构并行调度。
4.灵活可扩展:插件化硬件与软件适配机制,便于后续功能升级和硬件扩展。
5.跨场景服务:适用于科研计算、AI模型训练与推理、教学实验、工业仿真等多种场景。
产品参数:
|
产品版本:OGSP 5.0 |
操作系统:支持国产化操作系统(Kylin、UOS)及主流Linux发行版(CentOS、Rocky Linux等) |
|
所属类别:超智融合算力管理平台 |
上架时间:2025年3月 |
产品优势:
1.融合设计,统一入口:打破HPC与AI平台割裂状态,通过统一入口、统一调度实现科研与AI任务协同运行。
2.多场景融合,适配教研需求:支持教学、科研、生产等场景的全栈算力服务。
3.深度可视化与智能监控:作业状态、资源利用、瓶颈分析一目了然,自动异常识别与通知推送。
4.国产化支持与异构扩展:全面适配国产芯片与多种硬件架构,保障未来兼容性。
5.安全可靠,支持信创与审计:符合信创改造与等保2.0合规要求,内置多因子认证与全链路审计功能。
产品规格:
1.调度支持:SLURM批处理调度 + 容器任务调度
2.容器支持:enroot、Singularity
3.计算架构:CPU/GPU/异构加速(NPU、DCU等)
4.扩展方式:插件化硬件与软件适配机制
产品图文介绍:
1.产品架构与总体设计
OGSP平台采用“三层融合”架构,由底层算力资源池、中间能力支撑引擎、上层场景化应用组成,具备极强的可扩展性与适应性。
异构兼容,全面覆盖主流国产算力芯片,中立不绑定。
算智融合,OGAI+OGSC组合,HPC+AI统一管理全栈打通。
个性体验,科教研场景化交互方式,流程可按需定制。

2.系统架构

3.用户工具链
平台为用户提供了一站式工具链,简化了远程操作、文件管理和开发流程,确保用户可以快速上手并高效完成计算任务。
WebSSH: 支持用户通过安全的 SSH 远程连接集群节点,执行作业、调试代码,并实时监控任务进展。

文件管理器:提供了简洁直观的文件管理界面,用户可以轻松上传、下载、移动和删除文件,进行文件的管理和共享。

远程桌面:支持通过图形化远程桌面访问集群,方便用户在需要图形界面的应用场景下进行操作,如设计和仿真任务。

Jupyter 开发工具:为用户提供浏览器内直接编写和运行代码的开发环境,支持常用的数据分析、可视化和开发任务。

4.作业管理
平台的作业管理功能支持用户灵活提交、监控和管理计算任务,确保集群资源的高效利用。



5.作业监控
平台提供作业的全过程监控功能,以确保任务在执行过程中的准确性和稳定性。平台在作业状态、资源使用、日志输出以及异常情况方面提供全面的监控与告警机制,帮助用户及时掌握作业运行情况

6.计费管理
平台提供精细化的计费管理工具,帮助用户实时了解资源使用情况,并实现科学合理的成本控制。平台支持多种计费策略、灵活的套餐和折扣方案,确保企业在资源利用的同时优化预算。



7.集群监控
平台提供全面的集群监控功能,帮助管理员实时了解集群的运行状态、资源使用情况和性能表现。集群监控涵盖计算资源、网络、硬件健康等多个层面,确保平台的稳定性和高效运转。


8.AI开发训练功能集
在AI领域,平台面向AI开发者、科研人员,提供友好的AI模型管理与推理环境:
支持通过WebUI进行Notebook开发、模型训练、推理任务配置与运行;
支持常用AI框架与容器环境(PyTorch, TensorFlow, Transformers等);
支持GPU精细切分调度(如MIG、Enroot隔离等方式);
提供任务运行图表、loss/accuracy趋势分析、模型导出;
与超算管理平台底层资源互通共享。
9.数据集管理


10.模型管理


11.镜像管理

12.启动的容器环境(开发环境)

13.模型训练任务提交

场景1:高校超算平台——统一管理多学科、多学院科研计算与教学实验任务,提高算力利用率。
场景2:企业仿真计算平台——提供高安全性与高效率的工程仿真支持,缩短研发周期。
场景3:研究机构大规模计算——支持跨部门、跨项目的算力调度与数据共享,加快科研成果产出。
场景4:AI大模型开发训练微调平台——提供一站式从数据集、模型、开发环境、容器镜像到模型开发训练的全流程业务流支持,提升大模型的开发训练过程的效率。