JSS 作业调度软件

面向 HPC/AI 大规模集群的智能作业调度平台，兼容主流框架，吞吐提升300%，资源利用率达90%

1000+

节点规模

100K

并发作业

90%

资源利用率

300%

吞吐提升

六大核心能力

智能调度引擎

基于强化学习的作业匹配算法，综合考量GPU/CPU/内存/网络/许可，自动选择最优节点，集群效率提升60%

多框架兼容

完全兼容 Slurm / PBS Pro / LSF / SGE / Kubernetes，零迁移成本，支持作业脚本一键导入

异构资源池化

统一管理 CPU / NVIDIA GPU / 国产 GPU (沐曦/昇腾/寒武纪) / DCU / NPU，支持MIG切分与GPU共享

公平共享与配额

部门/项目/用户三级配额，动态优先级、抢占式调度、Backfill算法，资源利用率提升至90%

可视化监控

实时集群拓扑、节点健康度、作业排队、能耗指标可视化大屏，告警联动短信/邮件/钉钉

数据感知调度

集成 Lustre / GPFS / BeeGFS 并行文件系统，作业就近调度数据节点，IO性能提升 5x

五层调度架构

从用户接入到底层资源池化，AI 驱动的全栈调度

用户接入层

Web Portal · CLI · REST API · Python SDK · CI/CD Webhook · SSO/LDAP

作业管理层

Job Submit · Workflow DAG · Queue · Priority · Quota · Dependency

智能调度层

AI/RL Engine · Backfill · Fair-Share · Gang Scheduling · Topology-Aware

资源管理层

Node Agent · Container Runtime · cgroups · Health Check · Auto-Heal

异构资源池

CPU · NVIDIA · Metax · Ascend · Cambricon · DCU · NPU · Lustre/GPFS

调度可视化大屏

实时呈现集群拓扑、作业队列、节点健康度与能耗，秒级响应运维决策

甘特图时间轴

直观查看作业排队、运行、依赖关系

集群热力图

一眼识别热点节点与空闲资源

能耗与碳排

集群能耗、PUE、碳排放可视化

客户收益

某 Top3 半导体客户在 1200 节点集群验证的真实数据

+300%

吞吐量提升

智能调度让相同硬件跑出 3 倍作业量

90%

资源利用率

从传统 40-60% 提升至业内领先 90%

-65%

作业等待时间

高优先级作业平均等待从 4h 降至 1.4h

40%

TCO 节省

相同业务规模硬件采购量直降 40%

JSS vs 传统调度器

能力维度	传统调度器	JSS
调度算法	FIFO / Backfill	AI 强化学习 + Backfill
GPU 共享	不支持	MIG / vGPU / Time-Slicing
国产 GPU	无	沐曦/昇腾/寒武纪/海光
可视化	命令行	Web 大屏 + 移动端
资源利用率	40-60%	85-95%