JSS 作业调度软件

面向 HPC/AI 大规模集群的智能作业调度平台,兼容主流框架,吞吐提升300%,资源利用率达90%

1000+
节点规模
100K
并发作业
90%
资源利用率
300%
吞吐提升

六大核心能力

智能调度引擎

基于强化学习的作业匹配算法,综合考量GPU/CPU/内存/网络/许可,自动选择最优节点,集群效率提升60%

多框架兼容

完全兼容 Slurm / PBS Pro / LSF / SGE / Kubernetes,零迁移成本,支持作业脚本一键导入

异构资源池化

统一管理 CPU / NVIDIA GPU / 国产 GPU (沐曦/昇腾/寒武纪) / DCU / NPU,支持MIG切分与GPU共享

公平共享与配额

部门/项目/用户三级配额,动态优先级、抢占式调度、Backfill算法,资源利用率提升至90%

可视化监控

实时集群拓扑、节点健康度、作业排队、能耗指标可视化大屏,告警联动短信/邮件/钉钉

数据感知调度

集成 Lustre / GPFS / BeeGFS 并行文件系统,作业就近调度数据节点,IO性能提升 5x

五层调度架构

从用户接入到底层资源池化,AI 驱动的全栈调度

用户接入层
Web Portal · CLI · REST API · Python SDK · CI/CD Webhook · SSO/LDAP
作业管理层
Job Submit · Workflow DAG · Queue · Priority · Quota · Dependency
智能调度层
AI/RL Engine · Backfill · Fair-Share · Gang Scheduling · Topology-Aware
资源管理层
Node Agent · Container Runtime · cgroups · Health Check · Auto-Heal
异构资源池
CPU · NVIDIA · Metax · Ascend · Cambricon · DCU · NPU · Lustre/GPFS

调度可视化大屏

实时呈现集群拓扑、作业队列、节点健康度与能耗,秒级响应运维决策

JSS Scheduling Dashboard

甘特图时间轴

直观查看作业排队、运行、依赖关系

集群热力图

一眼识别热点节点与空闲资源

能耗与碳排

集群能耗、PUE、碳排放可视化

客户收益

某 Top3 半导体客户在 1200 节点集群验证的真实数据

+300%
吞吐量提升

智能调度让相同硬件跑出 3 倍作业量

90%
资源利用率

从传统 40-60% 提升至业内领先 90%

-65%
作业等待时间

高优先级作业平均等待从 4h 降至 1.4h

40%
TCO 节省

相同业务规模硬件采购量直降 40%

JSS vs 传统调度器

能力维度传统调度器JSS
调度算法FIFO / BackfillAI 强化学习 + Backfill
GPU 共享不支持MIG / vGPU / Time-Slicing
国产 GPU沐曦/昇腾/寒武纪/海光
可视化命令行Web 大屏 + 移动端
资源利用率40-60%85-95%

让 HPC/AI 集群跑得更快