云原生融合智算平台

一站式算力、模型、应用和数据资产解决方案

中国智算市场与挑战

市场规模高速增长，但企业从算力统管到应用落地仍缺少统一平台承接，探索热度与规模化部署之间存在明显断层。

1.2万亿元

2025年中国AI核心产业规模

同比去年增长近 30%

100亿次

国产开源大模型累计下载量

AI企业数量突破 6,000家

1,590 E

中国智能算力规模(EFLOPS)

算力基础设施投资持续加速

88% / 10%

探索渗透率高达 88%
真正规模化部署不足 10%

巨大的理想与现实鸿沟

核心洞察：市场规模巨大，但企业在拥抱大模型技术时，面临底层算力统管与上层应用落地的巨大鸿沟 —— 这正是破晓石云原生智算平台的核心价值所在。

企业落地 AI 面临的四个痛点：

算力孤岛与资源浪费

异构 GPU（NVIDIA、昇腾、海光等）难以统一调度池化，资源利用率低。

模型管理与部署复杂

大模型微调到推理缺乏标准化流程，模型缺乏可靠分发和运行机制。

大模型 API 治理缺失

多租户数据隔离难，API 调用缺乏内容合规审计与精确的限流计费。

AI 数据资产零散与复用难

缺乏统一的模型与数据集管理仓库，内部创新难以沉淀、版本极易混乱，团队协作成本居高不下。

晓石智算三大产品

围绕企业 AI 落地的关键链路，晓石云原生融合平台形成以RUNE智算为核心、MOHA数据资产平台与LLMG模型服务平台协同的完整产品生态体系，承接从研发到运营的全流程。

01 Asset Hub

MOHA 数据资产平台

模型资产数据集协作技能沉淀

整合企业内外模型、数据集、技能库与应用镜像等数字资产，提供内容沉淀、协作复用、社区运营与数据安全的管理能力。

定位：企业 AI 的资产中枢

Core Platform 02

RUNE 智算平台

异构算力管理训练 / 推理一体化云原生运行时企业级治理

作为整个产品矩阵的核心底座，RUNE 负责承接异构算力、模型开发、服务部署与云原生运行，让企业 AI 从试点验证走向稳定生产。

承载能力

统一异构算力、训练推理与服务编排，支撑多团队并行研发。

运营能力

覆盖租户治理、弹性调度、部署运行与平台运维的全链路闭环。

定位：企业 AI 的生产与运行底座

03 Gateway

LLMG 模型运营平台

统一接入审计限流计量计费

整合国内外主流大模型，提供标准 API 接入、路由治理、审计限流与计量计费，形成企业级大模型服务开放入口。

定位：企业 AI 的服务开放入口

RUNE 负责生产与运行，MOHA 负责资产沉淀与复用，LLMG 负责模型服务开放与治理，三者共同构成企业AI产品落地的完整产品闭环。

智算产品全景

从底层异构算力到平台服务、资产沉淀与安全治理，破晓石智算平台以一套统一架构承接企业 AI 的研发、部署与规模化运营。

全栈覆盖

统一平台服务

资产沉淀复用

企业级治理

私有化部署

04

网关与安全层

统一接入、路由治理与安全合规

面向企业 API 暴露和多租户访问控制，保障调用可管、可审、可追溯。

模型路由限流计费内容审查审计日志 RBAC 权限

03

资产管理层

魔哈仓库沉淀企业 AI 资产与协同复用中心

统一管理模型、数据集、镜像和应用模板，让团队经验沉淀为长期复用资产。

模型库数据集镜像仓库 MCP服务技能广场应用市场

02

平台服务层

模型开发、训练、部署与评测的一体化 PaaS

提供标准化工作流，缩短从实验、微调到上线交付的整体链路。

模型推理微调服务训练仿真交互式开发实验追踪模型评测

01

基础设施层

统一多集群与异构算力池化底座

打通多厂商芯片、集群和存储资源，形成企业级 AI 共享与弹性调度底座。

多地、多集群管理 NVIDIA / 昇腾 / 海光 / 阿里云算力资源切分 / 池化智能调度高性能存储高性能网络

双控制台设计：管理与使用的平衡

智算平台延续双栏信息骨架，用分层控制面明确平台治理与租户工作台的职责边界，让管理员、开发团队与业务使用者协同不混线。

用户前台 Tenant Workspace

Console

面向 AI 开发者与业务团队的租户工作台

RUNE MOHA LLMG

聚焦模型部署、微调任务、应用开发与 API 管理，让研发团队在租户边界内高效交付。

运维后台 Platform Control

BOSS

面向平台管理员的全局管理平台

集群运维租户治理全局监控

负责集群、租户、配额与网关治理，为 Console 工作台提供统一资源边界和运行规则。

双控制台设计

平台治理与租户研发分层展开，避免把所有能力堆在一个面板中。

职责对照

Console

租户工作面

服务研发与业务团队

BOSS

平台治理面

服务平台管理员

管理对象

模型、数据、任务、应用

集群、租户、配额、网关

核心动作

研发、部署、调试和日常使用协同

分配资源、设定规则、监控全局状态

边界关注

效率、体验、交付速度与复用

安全、稳定性、成本与审计

输出结果

敏捷研发工作台

统一治理底座

协同关系

BOSS 负责定义资源与安全边界，Console 在边界内完成研发、部署与业务交付。

RUNE核心功能：异构算力统一调度与管理

打破硬件壁垒，统一接入多厂商算力资源，通过池化切分与智能调度，让企业 AI 训练与推理效率最大化。

01 Multi-Vendor Support

多厂商支持

全面兼容 GPU / NPU / DCU / PPU / XPU 等多类 AI 芯片与云上算力，统一纳入企业级算力视图。

NVIDIA GPU 昇腾 NPU 海光 DCU 阿里云 PPU 昆仑芯 XPU AMD GPU 沐曦 MX 天数天垓

本地集群云上算力训练 / 推理国产替代

统一纳管 芯片、集群与云资源进入同一算力视图

平滑迁移 减少跨厂商环境切换带来的适配成本

统一接入不同厂商、不同形态的算力资源
降低异构环境下的基础设施割裂与迁移成本
覆盖本地部署、云上扩展与国产化替代等多种基础设施路径
为国产化替代与混合算力扩展预留统一接口与治理能力

02 Pooling & Partitioning

资源池化与切分

把分散 GPU / NPU 资源统一池化，并按任务需求做精细化切分与分配。

统一资源池

一套算力底座，按业务场景分配最合适的资源形态。

独占模式高效分配

一块显卡，多任务高效调度

适合开发调试、模型推理等常驻服务的场景。

团队 A 团队 B 团队 C

切分模式更细颗粒度

一块大卡，拆成多个可交付规格

适合小批量训练、实验任务与预算敏感型业务申请。

1/4 GPU 1/2 GPU vNPU

提升资源利用率 通过共享与切分减少空置浪费，提升整体算力复用效率。

提升交付灵活性 按任务大小交付资源规格，让更多团队更快拿到可用算力。

支持 GPU 共享与细粒度切分，提高算力利用率
让不同规模任务获得匹配的资源规格与成本控制

03 Intelligent Scheduling

调度服务

面向 AI 训练与 HPC 混合负载，按任务特征自动选择更合适的调度策略。

Binpack DRF Gang 队列优先级

装箱率优先 Binpack 提升集群利用率，减少资源碎片

公平性优先 DRF 平衡多租户资源占用与任务等待

分布式优先 Gang 保障训练任务按组启动与协同执行

优化训练、推理与 HPC 任务的排队与执行效率
在共享集群中平衡吞吐、时延与资源公平性
支持队列优先级、任务组联动与公平共享等批调度机制
让不同负载类型匹配更合适的调度策略与执行顺序

RUNE核心功能：覆盖模型和应用开发到上线全流程

八大核心功能模块覆盖部署、微调、开发、评测、资产管理与运行观测，让 AI 团队在一个工作空间内完成研发到上线交付。

开发协作

训练微调

评测推理

容器管理

01 Inference Service

推理服务

支持高性能推理一键部署，兼容 PD 分离与 LoRA 挂载
自动注册至 AI 网关，支持公开 / 租户 / 私有三级可见性
提供服务状态监控、端点管理、弹性伸缩与自动暂停 / 恢复

02 Fine-tuning Service

微调服务

支持多种微调框架，覆盖快速微调与专家微调场景
支持 SFT / Freeze 等训练阶段，内置 Moha 与外部社区集成
打通数据、模型与任务管理，降低从实验到产出的切换成本

03 Development Service

开发服务

内置 30+ RuneBox 模板，覆盖 AI 基础环境与应用开发套件
支持 Windows / Linux / Docker，兼容 SSH 与 VSCode 远程开发
提供桌面终端级开发环境，支撑多样化研发与仿真场景

04 Experiment Tracking

实验追踪

支持本地化实验数据服务，兼容 W&B 协议记录训练过程
记录参数、指标与日志，并支持可视化分析展现
帮助团队复盘训练过程，提升模型实验的可追溯性与复现性

05 Model Evaluation

模型评测

支持多领域基准评测任务与大模型推理服务性能压测
评测数据与压测结果可视化，便于持续优化模型效果
覆盖人文、数学、编程等场景，形成模型质量与性能双重视图

06 App Market

应用市场

内置丰富云原生应用模板，支持应用一键化部署与运维
支持模板管理与企业自定义模板，沉淀专属应用资产
让业务团队复用标准化模板，加快 AI 应用落地与扩散速度

07 Data Management

数据管理

兼容块设备、网络文件系统等多类存储，并支持 S3 协议访问
提供 Web 可视化管理与密钥、可见性分级权限保障
统一数据访问与权限边界，满足企业存算分离和安全治理需求

08 Observability

可观测性

实时上报 GPU / CPU / 内存 / 功耗 / 网卡等实例级监控指标
支持应用监控日志采集与可视化展现，提升运维透明度
让训练、推理与应用实例的运行状态持续可见、可分析、可追踪

RUNE模型&应用一站式管理

从模型开发环境、微调任务到弹性推理和持续观测，Rune平台将模型从实验室推向生产环境的全链路闭环到统一流程中。

01 Dev & Fine-tuning

开发微调

统一的开发与微调环境，提供 JupyterLab、VSCode 多样化工具，内置分布式训练加速。

02 Virtualization

虚拟化

支持 Windows、Linux 等多种操作系统，保障桌面仿真环境无缝迁移。

03 Elastic Inference

弹性推理

具备自动扩缩容能力的高性能模型服务，支持多层级 API 发布与路由治理。

04 App Marketplace

应用市场

预置企业级应用与模板库，开箱即用的部署与集成方案，加速业务创新。

05 Data Governance

数据治理

数据资产的合规管理与全生命周期治理，支持血缘追踪与权限隔离。

06 End-to-End

全方位观测

从开发、训练到部署、运维的完整闭环，实时可观测与持续优化。

jupyter-workspace - VSCode

train.py config.yaml

import torch

from transformers import AutoModelForCausalLM

# Initialize DeepSeek tuning

model_id = "deepseek-ai/DeepSeek-V3"

model = AutoModelForCausalLM.from_pretrained(

model_id, device_map="auto"

)

SSH: gpu-cluster-03 Python 3.11 UTF-8

开发环境

Service Dashboard

DeepSeek-V3.2 API

Active

2,450Req/min

18msP99 Latency

8xH100 GPUs

Traffic (Last 15m)

POST https://api.rune.ai/v1/chat/completions

推理服务

📄Data

📁Models

⚙️Tools

NVIDIA System Management

GPU 0: RTX 4090 [|||||||| ] 78%

GPU 1: RTX 4090 [||||||||||] 92%

GPU 2: RTX 4090 [|||| ] 45%

⊞

⚡

💻

🌐

10:42 AM

虚拟化桌面

Rune App Market

Search apps, templates...

Featured AI Apps Database Workflow Ops

180+Templates

12Scenarios

90sDeploy

DifyWorkflow

CozeAgent

ComfyUIGenAI

MySQLDB

MongoDBNoSQL

JupyterIDE

OllamaLLM

vLLMServing

MilvusVector

RedisCache

MinIOStorage

QdrantVector

142 Deployable Tenant-safe Last sync: 2m ago

应用市场

Cluster Metrics (Grafana)

GPU Utilization78%

CPU Load46%

Memory Usage128GB / 256GB

GPU Temperature71°C

运行 Metrics 监控

Filebrowser - /mnt/nas

📁 /mnt/nas/datasets/corpus-v2/

📄 train_data.jsonl1.2 TB

📄 valid_data.jsonl45 GB

📁 processed_embeds--

Storage Quota: 8.4 TB / 10 TB

持久化数据管理

RUNE应用市场

把数据库、中间件、AI 应用和行业模板统一收敛到应用市场中，让业务团队基于预置参数即可零代码完成部署、挂载数据和后续运维。

Rune App Market

Templates

180+ 应用模板

12 行业场景包

90s 最快上线

100% 接入可观测

AI Workflow 一键安装

Dify

预置模型接入、向量库与鉴权配置，快速搭建企业级 AI 工作流应用。

公网 / 内网可持久化

Agent Studio 预置参数

Coze

支持快速拉起 Bot 服务、工具编排环境和回调配置，适合业务验证与交付演示。

模板扩展 API Ready

GenAI UI GPU Ready

ComfyUI

面向图像与多模态场景的可视化工作流模板，自动绑定 GPU 与共享存储。

模型挂载多用户访问

Database Stable

MySQL

标准数据库模板，支持高可用参数、卷挂载与备份策略，适合作为 AI 应用基础数据底座。

持久卷备份策略

NoSQL Cluster

MongoDB

支持副本集部署与监控接入，可快速承载日志、会话和业务元数据等多样化负载。

可横向扩展监控接入

Workspace Custom

JupyterLab Pro

企业可沉淀专属开发模板，统一镜像、依赖、数据挂载和安全策略，避免重复造轮子。

企业专属镜像复用

从模板到上线的最短路径

01

选择模板

按 AI 应用、数据库、工作流或企业专属分类快速筛选。

02

配置参数

预置镜像、端口、环境变量与资源规格，减少重复配置。

03

挂载数据

兼容对象存储、块存储与文件系统，满足存算分离场景。

04

上线运维

自动进入实例监控、日志查看、伸缩和版本升级流程。

生命周期

部署、扩容、升级、回滚、下线统一在平台内完成。

数据管理

统一挂载存储和访问策略，支撑企业级数据归集与治理。

可观测性

实例健康、日志和资源利用率自动接入平台监控体系。

模板沉淀

把成功实践固化为企业模板，形成可复用的交付资产。

MOHA企业私有AI 资产平台

类 HuggingFace / ModelScope 的私有化 AI 资产管理平台，让模型、数据、镜像、应用与技能在企业内部持续沉淀、复用和协作演进。

六大资产类型

从模型到数据、镜像、应用、MCP 服务和技能市场，Moha把企业内部 AI 资产汇聚为统一的协作社区。

01 Models

模型库

支持 Git-based 版本管理、文件浏览、提交历史与分支协作。

02 Datasets

数据集

覆盖 NLP、CV、多模态等 50+ 任务类型的数据集管理与共享。

03 Images

镜像仓库

兼容 OCI 标准服务，统一托管企业内部容器镜像并支持漏洞更新。

04 Spaces

应用空间

自动构建并运行 AI 应用和工具组件，支持在线预览与全生命周期管理。

05 MCP Server

MCP 广场

基于 MCP Server 的模型技能预置中心，支持技能的一键部署与共享。

06 Skills

模型技能

面向企业内部的模型技能市场，沉淀各领域可直接调用的能力模板。

Moha Console

Assets

1,280Models

540Datasets

96Spaces

2996Skills

热门资产 Latest

Asset Activity 7 Days

Model README

Files

概览文件交流反馈设置

中文对话 0.2B 小模型

中文 | English

面向中文问答与轻量推理场景的开源对话模型，支持低门槛部署、训练续跑与企业私有化二次分发。

0.2B 参数量，低显存可运行支持 tokenizer / SFT / RLHF 流程兼容 Transformers、PEFT 与推理框架 README、License 与版本说明统一托管

ChatLM-mini-Chinese 31

system/ChatLM-mini-Chinese

4.5

组织 / 作者 system · admin 支持公开、内部与私有三层权限控制

许可证 / 分类 Apache License 2.0 文本生成 · 更新时间 2026-04-04

MOHA资产接入与运营能力

除了数据资产，Moha还通过 SDK 接入、权限治理、社区化运营、模型加解密与镜像同步能力，让企业资产真正可流转、可保护、可持续演进。

01 SDK / API

API接入

通过 CLI、SDK 与 API，把上传、登录、发布和分发串成自动化交付链路。

02 Permissions

权限管理

公开、内部、私有三层权限协同管理，既支持共享也保障资产边界清晰。

03 Community

社区运营

讨论、标签、评分与版本记录沉淀知识，让资产持续被消费和演进。

04 Encryption

模型保护

支持加密上传与解密运行，适配主流推理框架，兼顾安全与可用性。

05 Mirror Sync

开源镜像

支持对接 HuggingFace 和 Modelscope 数据源，持续引入外部更新并同步到企业内部资产池。

Terminal

$ pip install xiaoshiai-hub

Successfully installed xiaoshiai-hub

$ moha login

✔ Successfully logged in to Moha Hub

$ moha upload -t models -e --encryption-password "your-password" -a SM4 deepseek-ai/DeepSeek-V3

Encrypting & uploading model.safetensors

82%

SDK接入

交流反馈

Pull Requests

社区运营 Discussion

所有讨论合并请求

feat: middleware route support admin 创建于 2026-01-21 · 5 条回复

改了文件 admin 创建于 2026-01-09 · 已合并

反馈：标签整理 zk 创建于 2025-12-17 · 0 条回复

社区管理

模型文件

README

模型加密 AES / Secure

config.json 659 bytes

generation_config.json 242 bytes

model.safetensors

AESLFS

模型加密

数字人客服

Preview

应用空间 Spaces

您好！我是智能客服，很高兴为您服务。

介绍下自己数字人功能如何接入

空间样例

LLGM大模型运营平台

以一个统一入口承接多模型 API 接入、路由回退、配额计量与安全审计，让企业从“能调用”走向“可治理、可运营、可扩展”。

Client Side

大模型调用客户端

把不同终端入口统一收口到 LLGM 网关，让业务侧用一致方式接入模型能力。

PC

AI智能体

面向业务流程和系统协作的 Agent，通过统一接口调用规划与执行能力。

BOT

具身机器人

服务和工业机器人接入感知、理解与动作决策能力，统一走网关调用。

USR

Vibe Coding

面向开发协作与代码生成场景，快速调用代码理解、生成与改写能力。

CAR

智能驾驶

面向座舱与驾驶辅助场景，接入视觉理解、语音交互与决策推理能力。

Unified AI Access Layer

LLMG Gateway

统一 API 入口

统一协议弹性路由负载均衡

Model Supply

上游模型接入

同时承接第三方模型、Rune 平台自建大模型服务，以及视觉、语音等专用小模型。

第三方模型供应商 API Providers

OpenAI Anthropic Google DeepSeek 智谱豆包 Qwen Moonshot OpenRouter 硅基流动

Rune 平台模型服务 Private LLM Services

私有化部署模型企业微调模型推理加速服务知识增强模型

视觉 / 语音 / 小模型 Specialized Models

OCR / VLM ASR / TTS Embedding Reranker 检测分类多模态理解

01 Format Compatibility

统一 API 格式

兼容 OpenAI API 与 Anthropic API 请求格式，支持流式输出与多模态接入。

02 Routing & Fallback

多渠道路由与回退

按模型能力、成本和可用性选择最优通道，并支持首选路由和自动降级。

03 Rate Limit & Metering

精细化限流与计费

基于 RPM、TPM 和 Token 消耗做多维限速、配额管理与租户级成本统计。

04 Security & Compliance

安全与合规

内置内容审查、IP 白名单和审计留痕，把访问治理和风控前置到统一网关层。

LLGM上游供应商

把上游模型能力封装成可售卖、可计量、可复用的资源单元，让技术接入、产品定价和运营增长联动起来。

第三方生态

主流模型品牌已经具备清晰的商业分层，适合被包装成不同 SKU 和协议层级。

O

OpenAI

旗舰能力与成熟生态，适合作为高价值标准 SKU。

A

Anthropic

推理和安全调性明确，适合高要求业务线。

G

Google Gemini

多模态与长上下文能力突出，适合复杂输入场景。

Q

阿里千问

中文体验和本地化部署友好，适合国内业务产品化。

M

MiniMax

支持多模态与长文本场景，适合对话与内容生成业务。

D

火山引擎豆包

面向中文业务和应用落地，适合按场景打包售卖。

K

月之暗面 Kimi

超长上下文和知识密集场景友好，适合深度阅读产品。

B

百度千帆

百度智能云生态入口，适合国内企业级集成。

Z

智谱

面向国内通用模型和 Agent 场景的核心供给。

S

硅基流动

聚合与分发模型能力，适合做统一接入层。

R

OpenRouter

多模型路由与聚合分发，适合跨供应商接入。

P

自定义渠道

面向企业私有供应链和专属接入方式，支持自建模型与独立分发。

01 Procure

采购上游资源

统一采购模型额度、API Key 和专线访问能力。
把外部成本转成可控的内部资源池。

02 Package

包装成SKU

按模型、协议、区域和 SLA 形成可售卖单元。
支持专业版、旗舰版定价。

03 Bundle

叠加业务空间

与业务空间、API Key、Router 组合成场景套餐。
把调用能力和业务权限绑定在一起售卖。

04 Bill

计量与分润

按 Token、模型、组织和场景精细计费。
支持订阅、按量、分润和私有化交付模式。

LLGM多模态对话

把模型试用、参数调试、推理展示与 API 集成收敛到同一个 LLM Playground 中，让开发者和业务团队在一页内完成评估、对比和接入判断。

LLGM

Playground

Search models, routes, tags...

Online 91

DeepSeek R1 671B

Reasoning 强，适合方案生成与复杂业务分析。

128K Tenant Reasoning

Standby 88

Qwen Max 128K

回答稳健，适合正式交付前的口径校准。

128K Private Stable

Online 90

Gemini 2.5 Pro

长上下文与复杂写作表现优先，适合调研型问答。

1M Public Search

User

请基于企业知识库，为一家制造业客户生成“设备巡检 Copilot”落地方案，要求包含部署架构、数据安全策略和 ROI 预估。

Assistant 首 Token 1.2s

Reasoning: 已拆解业务目标、知识来源、合规边界与上线节奏

部署架构

先在 ChatApp 完成提示词和参数验证，再经 LLM Gateway 发布租户级 API，后接巡检应用与知识检索链路。

安全策略

采用工作空间隔离、审计日志、敏感词过滤与设备文档脱敏，保证生产资料不跨租户泄露。

上线建议

优先覆盖 SOP 检索、异常问答与报告草拟场景，再逐步推广到移动巡检与培训辅导。

Trace

Gateway Route: chatapp-route Audit: Enabled Source: Manufacturing KB

Image Input Web Search System Prompt

输入问题、上传图片或切换系统提示词，直接在所选模型上发起对话。

从 Playground 到业务接入

Endpoint /v1/chat/completions

Routing gpt-5.2/ deepseek-r1 / qwen-max

Security API Key / 审计 / 内容过滤

多模型对比

支持在同一问题下切换或并排评估多个模型，直观看回答质量、延迟与风格差异。

提示词调试

围绕 System Prompt、上下文与输出目标快速迭代，验证业务口径和回复结构是否稳定。

联网检索

可在同一会话内查看联网结果与引用来源，适合知识更新频繁的业务场景。

多模态输入

兼容文本、图片和文档理解，为质检、巡检、图文问答等场景保留扩展空间。

企业治理

统一继承路由、内容审查、速率限制与审计日志，不绕开平台治理闭环。

深度思考

支持展示 reasoning 过程与关键推断节点，辅助评估复杂任务的稳定性。

BOSS全局运营管理平台

将多集群、租户体系、资源配额、模板发布与平台设置收敛到同一个全局控制面中，让运营、平台和安全团队在一个视图内完成治理、监控和策略分发。

01 Cluster Governance

多集群管理

统一注册计算、存储与系统应用，把节点、资源池、规格和告警事件拉到一个运营视角中持续跟踪。

支持多集群注册、纳管和生命周期维护
集中查看资源池、规格和关键组件状态
统一沉淀监控事件、日志和告警处理闭环

02 Tenant & Identity

租户与用户管理

用多租户、工作空间和身份系统把平台访问边界管清楚，让组织架构、账号体系与权限分配同步落地。

租户创建、成员分配和空间隔离统一编排
兼容企业单点登录和内置账号体系
为 RBAC、审计和配额治理提供身份基础

BOSS Console

Operations

12 纳管集群

164 活跃租户成员

2,480 GPU / NPU / DCU 配额单元

18.7M Token 使用量（Last 24h）

告警与事件

权限与身份

配额策略

模板发布

产品配置

Enterprise Operations Brain

BOSS

从底层算力资源到上层应用模版，统一承接运营监控、安全策略和平台配置，保证企业级 AI 平台的持续可控运行。

运营闭环

集群指标、租户行为、告警事件和审计记录统一汇聚，形成持续可追踪的运营看板。

策略下发

配额、模版发布、身份规则和平台配置通过统一控制面下发到不同产品和工作空间。

05 Platform Settings

平台设置

系统成员、平台参数和产品级开关在同一配置坞舱内统一维护，保障智算平台、魔哈和大模型平台的独立配置与一致治理。

03 Quota Policy

资源配额管理

面向 CPU、内存、GPU、存储和网络资源建立租户级与工作空间级双层配额体系，保证共享资源下的公平与可控。

兼容多类型异构加速卡和高性能资源口径
支持租户级与工作空间级双层限制
把资源申请、审批和投放纳入统一策略

04 Template Lifecycle

应用模版管理

将推理、微调、开发、实验和评测模版纳入同一版本和发布体系，让平台运营者既能控质量，也能加快模版交付效率。

统一管理模版版本、适配范围和发布状态
连接模版市场与应用上线入口
让最佳实践在不同租户之间稳定复用

BOSS多租户权限隔离

一套基础设施向上切分部门级租户资源池与工作空间边界，让算力、存储、网络和数据在统一平台内被高效复用，同时保持严格隔离和可控访问。

Department 01

算法研发部

负责模型训练、推理与评测，拥有独立成员、模型可见性和实验资源配额。

GPU 18 Card

CPU 96 Core

Memory 384 GB

Storage 5 TB

Department 02

客户服务部

围绕客服机器人、知识问答和工单助手建设应用，避免和研发任务混用资源与数据。

GPU 8 Card

Token 35M / Day

Department 03

风控合规部

承接敏感文档审查、审计追溯和规则校验，确保数据、日志和实例始终留在本部门边界内。

Token 50M / Day

配额资源池

每个租户可按场景组合配置 GPU / CPU / Memory / Storage / Token 配额上限

独立工作空间

工作空间与运行实例隔离到独立命名空间和运行域

租户级数据隔离

存储路径、镜像可见性和 API Key 都围绕租户边界收口

RUNE基础设施

异构算力、存储、网络与调度平面统一供给，再通过租户机制向上切分成可审计、可治理的独立运行域。

异构 GPU / NPU 资源池 NVIDIA / 昇腾 / 海光 / 阿里云

高性能存储域 块存储、文件系统、对象存储

网络与网关平面 Ingress、API Gateway、流量控制

统一调度与监控 调度器、告警、审计、回收策略

全景可观测性与动态监控

把节点健康、工作负载、资源消耗、API 调用链等收敛到数据面板，让平台团队从“事后排查”切换到“实时感知与主动处置”。

Infra

Overview

服务器资源总览表

主机总数：7

主机名 IP 启动(天) 健康值 CPU使用率内存使用率下载带宽

k8s-node1 192.168.10.13 360.86 89.1

31.1%

38.9%

61.24 MiBps

k8s-node5 192.168.10.19 23.19 93.8

10.5%

37.6%

14.07 MiBps

k8s-node8 192.168.0.107 145.1 98.3

7.4%

29%

6.84 MiBps

k8s-node4 192.168.10.18 14.11 98.7

3%

31.5%

3.99 MiBps

k8s-node2 192.168.10.15 1.08 98.7

5.1%

13.9%

3.44 MiBps

最近 7 天 P99 资源使用率

k8s-node892.4%

k8s-node279.5%

k8s-node176.3%

整体总负载与平均 CPU

整体总内存与平均内存

服务器概览

GPU

Pool

GPU 资源总览

Accelerator Pool

GPU 总数4

GPU 平均使用率 0%

集群总功耗78.38W

故障 GPU 数量0

最高温度49.0°C

GPU 节点数4

显卡类型分布

RTX 3080 × 2 RTX 4090 × 2

GPU 使用率趋势

功耗趋势

GPU 型号所在主机使用率温度实时功率

RTX 4090 k8s-node4 0 38 15.96

RTX 4090 k8s-node2 0 38 10.28

RTX 3080 k8s-node5 0 49 27.46

GPU设备

App

Monitor

应用监控数据

Service Runtime

CPU Usage

windows-f76b98b48-z4bjx 2.07%

Memory Usage

windows-f76b98b48-z4bjx 95.09%

Health

windows-f76b98b48-z4bjx Yes

CPU Usage Trend

Memory Usage Trend

Network IO

应用监控数据

Logs

Query

日志查询

Log Explorer

已加载 47 条

折行下载清除日志

04/21 14:42:32.943 [2026/04/21 06:42:32:8949] N: HTTP / - 192.168.10.18

04/21 14:42:22.943 [2026/04/21 06:42:22:8942] N: HTTP / - 192.168.10.18

04/21 14:42:12.944 [2026/04/21 06:42:12:8949] N: HTTP / - 192.168.10.18

04/21 14:41:52.944 [2026/04/21 06:41:52:8947] N: HTTP / - 192.168.10.18

04/21 14:41:22.944 [2026/04/21 06:41:22:8947] N: HTTP / - 192.168.10.18

04/21 14:40:52.944 [2026/04/21 06:40:52:8947] N: HTTP / - 192.168.10.18

04/21 14:40:22.944 [2026/04/21 06:40:22:8948] N: HTTP / - 192.168.10.18

日志查询

审计追踪

从事件到责任归属都能回放

右侧时间线承接 API、实例和配置三类行为，帮助平台团队在一个窗口内完成追溯和复盘。

09:42

gateway-route/fallback

主路由超时，系统切换到备用供应商并保留关联 trace ID。

09:45

inference/redeploy

工作空间 `fraud-detect` 触发新镜像灰度，副本从 6 扩到 8。

09:47

rbac/policy-change

平台管理员调整 API Key 可见性策略，差异已同步到审计记录。

09:53

alert/recovered

训练队列等待恢复到阈值范围内，告警自动关闭并生成复盘标记。

合规留痕 100% 关键动作留痕

API 调用、实例启停、配置变更、权限策略调整统一写入审计流，满足企业内部治理和外部合规检查。

主流智算平台对比

面对企业级 AI 建设，市场上的平台往往分别偏向公有云托管、单一芯片生态或开源协作社区。Rune智算的重点不是做一项能力最强，而是把企业真正需要同时成立的几条关键链路统一收进一个可私有化、可治理、可扩展的平台中。

对比的核心不在“有没有”，而在这些能力是不是原生收敛在同一个企业级平台里

私有化优先 Enterprise AI Stack

能力维度

PAI 公有云 AI 套件

ModelArts 昇腾生态导向

HuggingFace 开源协作社区

RUNE 晓石 AI 企业私有化全栈平台

私有化部署 数据主权与环境控制

受限

更偏公有云托管路径

支持

可落本地，偏华为体系

受限

仍受宿主环境约束

完全私有化

平台与数据都掌握在企业内部

国产芯片支持 异构算力兼容广度

部分

以主流云侧资源为主

华为自有

昇腾生态能力突出

不支持

不以国产异构资源池为目标

多芯片异构

昇腾、海光、NVIDIA 统一纳管

资产仓库 资产沉淀与协作方式

无

需借助外部资产体系补齐

无

不以内置私有资产社区为核心

核心功能

擅长模型与数据协作沉淀

内置私有 Hub

Moha Hub 原生打通模型、数据与应用

AI 网关治理 统一 API 与审计管控

独立产品

需要额外拼接治理链路

独立产品

网关能力通常不在主平台内闭环

无

缺统一企业网关控制面

深度集成

API、限流、计费与审计一体化

多租户体系 组织隔离与权限边界

支持

偏云账号与资源域隔离

支持

企业治理能力较完整

企业版

能力收束在协作产品边界内

原生多租户

租户、空间、配额与 RBAC 一体化

内容安全合规 审查、审计与策略控制

基础

具备基础云侧审查能力

基础

规则能力偏基础配置

无

更多依赖外部合规体系拼装

策略 + 词库

内容审查、审计与企业策略联动

Rune 的优势不是单点领先，而是减少企业把能力拼成平台的成本

当企业同时要求私有化、异构芯片、资产沉淀、API 治理与租户合规时，Rune 把最容易断开的链路收进同一控制面。

阿里云 PAI 华为 ModelArts HuggingFace RUNE 晓石 AI

01

全链路一体化

从算力管理、模型资产、推理部署到 API 治理，一个平台覆盖企业 AI 落地全链路。

02

私有化优先

完全私有部署，让数据主权、系统权限和基础设施控制权回到企业自身手中。

03

国产芯片原生支持

把昇腾、海光等国产算力和主流 GPU 一起纳管，避免平台能力被单一硬件生态绑定。

04

开放生态协作

借鉴 HuggingFace 式资产协作体验，但把模型、数据、应用和技能沉淀在企业内部。

为什么选择 Rune AI？

选择 Rune AI，不是在采购一组零散功能，而是在选择一套能支撑试点启动、组织治理与规模化落地的 AI 工程底座。它更强调本土化、模块化和全链路协同。

Enterprise AI Platform

晓石 RUNE AI 平台

以云原生底座为核心，把算力管理、模型资产、应用交付与治理控制统一收敛到同一个企业级 AI 平台中。

Engineering Depth

专业专注

深耕云原生与 AI 平台工程化，产品架构已在多类企业级场景中反复验证，能够稳定承接从底座建设到 AI 能力交付的长期演进。

Open Collaboration

开源生态

基于 KubeGems 等自研开源项目沉淀社区能力，并结合培训、实施与联合创新机制，让内部经验能够持续复用和外溢。

Localized Fit

本土化优势

深度支持国产芯片生态、数据安全约束与信创环境要求，更适合需要本地部署、审计合规和自主可控的企业场景。

End-to-End Platform

全链路覆盖

从算力调度、模型资产、训练推理到 API 网关治理与运营监控，一站式闭环减少企业在多平台之间拼接与迁移的成本。

Modular Delivery

模块化交付

支持单模块部署与分阶段建设，企业可以围绕最急迫的场景先启动，再逐步扩展到完整平台能力，降低前期投入门槛。

Sustainable Operations

低成本维护

依托云原生基础架构和快速迭代机制，既能支撑前期低成本试点，也能在后期平滑扩展到更大规模的生产环境。

灵活的交付选项

从轻量试点到集团化运营，企业可以像选择产品版本一样选择最适合当前阶段的 Rune 部署方案。

01 Starter 适合 POC

单机体验版

面向方案验证、售前演示和小型团队试用，以最小资源成本快速搭建完整平台闭环。

部署形态 1 节点 All-in-One

适用阶段预研 / Demo / POC

建设目标最快建立可验证环境

升级路径平滑迁移到 HA 集群

快速安装完整体验模型与网关能力适合作为内部试跑基线

02 Professional 推荐生产

集群高可用版

面向正式生产环境，构建高可用控制面与可扩展节点池，兼顾稳定性、弹性与持续升级能力。

部署形态 HA 集群 Multi-Master + Worker Pool

适用阶段生产上线 / 多业务承载

建设目标保障业务连续性与可维护性

升级路径横向扩容并升级到联邦治理

多主节点高可用滚动升级与弹性扩容适合企业正式生产标准化交付

03 Enterprise 适合集团化

多集群联邦版

面向跨地域、跨数据中心或多组织协同的大型企业，把多个独立集群收敛为统一运营网络。

部署形态 Federation Multi-Cluster / Multi-Region

适用阶段集团化部署 / 多中心纳管

建设目标实现跨地域统一治理与全局可视

升级路径支持组织边界继续扩张

统一联邦纳管分域自治与全局运营并存适合复杂组织和多地部署场景

商业合作与服务支持

售前咨询、架构设计、驻场实施、定制开发、培训赋能与长期运维串成一条完整服务链路，确保项目不是"上线即结束"，而是"落地后持续成功"。

01 Consulting

售前咨询与架构设计

结合客户现有 IT 现状、业务目标与合规要求，输出平台建设路径、资源规划与分阶段上线方案。

现状调研与需求梳理
PoC 方案与目标边界定义
部署架构与容量规划建议

02 Delivery

驻场实施与定制开发

围绕企业环境、国产算力、业务流程与组织边界进行联合交付，确保平台能力真正进入生产体系。

现场部署、联调与割接支持
按需适配流程、模板与集成接口
关键里程碑验收与上线陪跑

03 Success

7x24 支持与培训赋能

上线后持续提供问题响应、巡检优化、版本升级与角色化培训，让平台能力真正被团队稳定使用和复制。

故障响应与专家支持通道
运维巡检、升级与最佳实践回传
管理员与开发者分层培训

成都破晓石科技有限公司

Q&A

感谢您的聆听，期待与您共创 AI 未来。

免费试用 POC 测试方案交流

Call To Action 联系我们申请免费试用与 POC 测试

从方案沟通、环境评估到试点验证，破晓石团队可协同企业快速完成第一阶段落地。

联系方式

欢迎扫码添加联系，获取产品资料、试用信息与 POC 沟通支持。

官方网站 poxiaoshi.cn

邮箱地址 [email protected]

联系电话 18180523455

云原生融合智算平台

一站式算力、模型、应用和数据资产解决方案

中国智算市场与挑战

算力孤岛与资源浪费

模型管理与部署复杂

大模型 API 治理缺失

AI 数据资产零散与复用难

晓石智算三大产品

MOHA 数据资产平台

RUNE 智算平台

LLMG 模型运营平台

智算产品全景

统一接入、路由治理与安全合规

魔哈仓库沉淀企业 AI 资产与协同复用中心

模型开发、训练、部署与评测的一体化 PaaS

统一多集群与异构算力池化底座

双控制台设计：管理与使用的平衡

租户工作面

平台治理面

RUNE核心功能：异构算力统一调度与管理

多厂商支持

资源池化与切分

调度服务

RUNE核心功能：覆盖模型和应用开发到上线全流程

推理服务

微调服务

开发服务

实验追踪

模型评测

应用市场

数据管理

可观测性

RUNE模型&应用一站式管理

开发微调

虚拟化

弹性推理

应用市场

数据治理

全方位观测

RUNE应用市场

Dify

Coze

ComfyUI

MySQL

MongoDB

JupyterLab Pro

从模板到上线的最短路径

选择模板

配置参数

挂载数据

上线运维

MOHA企业私有AI 资产平台

六大资产类型

模型库

数据集

镜像仓库

应用空间

MCP 广场

模型技能

中文对话 0.2B 小模型

MOHA资产接入与运营能力

API接入

权限管理

社区运营

模型保护

开源镜像

LLGM大模型运营平台

LLMG Gateway

统一 API 格式

多渠道路由与回退

精细化限流与计费

安全与合规

LLGM上游供应商

第三方生态

OpenAI

Anthropic

Google Gemini

阿里 千问

MiniMax

火山引擎 豆包

阿里千问

火山引擎豆包