首页 > 资讯 > 科技 > 正文

高性能计算(HPC)的可扩展性和普遍性正在深入日常生活

2021-11-25 07:58:00 来源:环球网

能计算(HPC)的可扩展和普遍正在深入日常生活。现阶段,超级计算已经推动了科学探索的发展,并能够帮助解决气候变化和慢病治疗等关键问题。

而在具体应用方面,高能计算与产业的结合越发紧密。从金融到医疗,越来越多的数据分析,需要高能计算的强力支撑以获得更快更稳定的解决方案。

11月23日,青云科技对外发布QingCloud EHPC产品,基于青云公有云IaaS台、PaaS台的云基础设施,为用户主要提供公有云服务,为有需求的用户提供专属云和混合云等多种形态的产品。

在接受记者采访时,青云云台&服务部高级总监陈海泉表示,青云的超算云台可以完美地支持大数据和人工智能融合的超算业务,并且以云服务的方式提供,让超算资源更便捷地交付给用户。

提供多场景适配

据QingCloud EHPC 产品经理苗慧介绍,此次推出的QingCloud EHPC高能计算台应对的是生命科学、CAE仿真、海洋气象等相关领域的高能计算需求,提供丰富多样的使用模式,适配多种应用场景。通过统一管理的台,使不同领域的工程师、研究人员可以突破本地的HPC基础设施限制,快速开始云上创新。

QingCloud EHPC 提供云上超算 SaaS化服务,方便快捷让作业运行起来。通过青云的弹公网IP、公网带宽,将数据进行快速的上传、下载,与本地数据同步。

从客户群来看,QingCloud EHPC覆盖青云的终端用户,从云上计算到云下结果产出的一个全流程计算服务台,青云的用户可以在几分钟内,将云上工作快速运行起来,快速完成计算作业。

从服务构架来看,QingCloud EHPC的服务架构主要分为三层,分别是资源层、管理层和用户端。

资源层主要包含青云的计算、存储和网络资源,以及相应的后台调度器、调度管理台以及可视化服务台。

管理层主要提供SaaS化的服务,从开始作业到作业运行结束,系统将自动进行折扣信息计算、计量计费和作业监控服务,能够保证用户进来之后,对团队项目、团队项目权限等相应的管理。

用户端是用户控制台,用户可以进行创建集群、管理集群、弹伸缩、作业提交、作业编排、作业能分析。通过用户控制台,用户可以很方便地操作作业。

从产品的构架来看,QingCloud EHPC能够从资源层上提供高效的资源,从管理层上提供方便快捷的管理服务,从用户端上提供交互使用体验优秀的用户控制台。

同时,QingCloud EHPC采用弹伸缩的计算节点:在业务运行高峰期,青云可以将计算节点的数量进行扩容,或将计算节点的配置进行提高;在低峰期,可以根据作业量进行缩容。这样的安排将会大大减少资源投入的费用,提高资源利用效率,为用户提供更加友好的解决方案。

多技术融合 应对新挑战

苗慧透露,QingCloud EHPC 有丰富的应用软件。青云研究传统的超算中心和现在的云服务厂商后,通过青云的技术,将大规模开源软件及商用软件放到共享软件目录上,用户可以达到即来即用的情况,同时可以辅助用户安装与使用。青云提供的300多款软件中,既覆盖了像常用的MPI库、数学软件等资源,也覆盖了分子生物学、新能源、新材料、大气海洋环境、地球、物理等多行业领域。

事实上,从QingCloud EHPC的产品特,可以看出高能计算与云计算的融合趋势。

能计算的用途广泛,最核心的是用来模拟世界万物。宏观上,可以通过卫星图像、遥感数据、气象数据利用高能计算来模拟地球、海洋和气侯;微观上,能模拟分子原子来了解生命的原理,使药物的研发更快速、更精确。

在此背景下,作为前沿科技的高能计算开始走出高校,进入行业,实现了更多的场景应用落地。与此同时,受益于技术的演进,高能计算与大数据人工智能和云计算的融合越发明显。

在医药领域,新冠疫情加速了大数据在医药和生命科学上的应用,促进了核酸疫苗和核酸药物的研发。在金融领域,大数据和人工智能与超算相结合,对各种层面和维度的数据进行分析,通过深度学技术训练出模型,应用在风控上,可以让坏账率降低35%。

针对大数据、人工智能与超算融合的场景,对超算提出了一定的挑战。主要体现在,存储容量比以前大很多,不同类型的业务对存储的要求也不一样。因此超算中心需要对不同的业务提供合适的存储类型。

早先的超算中心围绕计算资源建设,容量有限、存储类型单一,难以支撑大数据的场景。而新一代的超算中心有些已经配备了强大的容量,可以承接仿真建模类大数据的业务,但由于超算中心本身提供的服务比较单一,也无法承载大数据业务需求。

同时,随着人工智能应用的爆发,对超算中心又提出了新的需求:充足的GPU资源以及相应的软件框架。这些业务往往希望用云原生的方式来部署和运行。因此,这对以 Slurm 调度器为主的超算中心也是一个很大的挑战。

因此,青云希望将适应了人工智能、大数据和超算的基础设施,在适用不同业务的同时能够做到尽量复用。这也是此次青云推出EHPC超算云—— QingCloud EHPC的一个初衷,可以全面地支持各种新的业务场景。

解决行业痛点

据了解,此次推出的高能计算台,对于超算最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供 GPU 桌面进行图形前后处理,完成一个闭环的业务场景。

对于大数据业务,QingCloud云台提供的对象存储容量达 245PB,跟计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽有1.6T,能够保证大数据计算的超高能。

对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器台,提供能极致优化、轻量便捷、开源开放的人工智能台。

此外,QingCloud EHPC还解决了超算中心的另一个痛点——使用方式。传统的超算中心用户,在使用时,需要提交申请,并且有人工审批的环节,用户得到审批通过后,还需要自己安装VPN客户端连接超算中心提供的登录节点。

超算中心的登录节点往往是很多用户共享的。共享的节点有两个问题:一是超算中心为了保证其自身安全,不提供 root 权限,给安装软件带来一些麻烦。二是Linux隔一段时间就会暴露出一些系统漏洞,如果被用户利用得到root权限,则能窃取台上其他用户的数据。

“所以,不方便和不安全这两个问题,需要用云台与高能计算结合解决。”陈海泉表示,青云云台带来的一个最大的变化是,把传统的审批制度变成用户自服务的形式,用户随时可以自己到云台注册账号,并且充值购买他需要的计算资源。

青云保障安全的同时,还能让整个超算使用很灵活,陈海泉介绍到,青云提供了两种不同类型的超算集群:偏传统的共享型超算集群和独享EHPC集群。

“青云有一个愿景,希望跟超算中心合作共建算力共享的算力网络,为超算中心私有化部署的同时,以云台连接全网算力提供外部资源支撑突发业务,避免排队。当超算中心自己的资源空置时,也可以对外出售算力增加运营收入。”陈海泉说道。

精彩推荐

关于我们 | 联系我们 | 免责声明 | 诚聘英才 | 广告招商 | 网站导航

 

Copyright @ 2008-2020  www.cguiw.com  All Rights Reserved

中国品质网 版权所有
 

联系我们:98 28 36 [email protected]
 

未经中国品质网书面授权,请勿转载内容或建立镜像,违者依法必究!