中心实验室启动实施HPC升级改造工作
发表日期:2021-11-10 周翔 打印 放大 缩小 【关闭】
高性能计算集群(HPC)自2016年投入使用以来,承担我园多个研究组科研大数据的分析处理任务,为我园科研事业的发展发挥重要的支撑作用。在近6年的运行和管理过程中,HPC主要存在以下几个方面的问题:(1)作业调度系统LSF和并行文件系统Lustre均为商业软件,系统升级维护成本较高;(2)Linux系统版本号较低,一些新型应用软件无法安装;(3)Lustre并行文件系统太复杂,占用较多的硬件资源,使HPC资源利用率偏低;(4)Lustre并行文件系统存在bug,经常出现计算节点挂载不上的情况;(5)节点计算能力和磁盘存储空间偏低,不能满足用户需求。
基于上述问题,中心HPC管理人员(周翔)依托中国科学院仪器设备功能开发项目(高性能计算集群并行文件系统的升级改造),利用有限经费,与云南宇儒科技有限公司合作开展HPC的升级改造,该项工作分3个阶段进行:(1)前期,对项目申请书的实施方案进行可行性论证、测试和优化完善;(2)中期,在保留原超算系统的前提下,重启搭建新的超算系统(操作系统为Centos 7.0,作业调度系统为SGE,并行文件系统为NFS,新增内存为1T胖节点和存储空间为112T文件存储设备各1台),供用户试用;(3)后期,根据超算用户的反馈意见(新旧超算系统的运行使用情况),对实施方案进行再次优化,整合超算新旧系统。
截止2021年11月7日,中心已完成HPC升级改造的前期和中期工作,目前新旧系统均正常运行。新的超算系统搭建完成后,中心于2021年11月8日上午(09:30-10:30)在中心实验室举办“超算升级改造后新系统使用及软件安装”的简短培训,来自生物多样性研究组、协同进化组、药用植物资源保护与利用组、网络中心共10多人参加了此次培训。
HPC新系统使用及软件安装培训