降本增效|算力资源紧张?推理任务调度让算力效益最大化
所谓“算力”,是指设备通过处理数据,实现特定结果输出的计算能力。算力作为人工智能的三要素(数据、算力、算法)之一,已成为人工智能产业化进一步发展的关键。
AI技术的不断进步,正加速AI在各行业落地应用,项目AI算法数量和项目复杂度也随之增加,优化算力资源配置,增强算力使用效能已是大势所趋。
// 某客户在一台服务器上有多张推理卡,同时运行安全帽识别、人员闯入识别、口罩识别等算法的推理任务。当推理卡1新增了一批摄像头,此时三个算法对推理卡1的算力资源消耗上升,就会引起推理卡1的算力资源不足, 导致推理卡1上会出现算法推理任务不稳定的情况。而此时,其它多张推理卡上还有多余的算力。以智慧工地项目为例,让我们看看业内落地推理服务遇到的一个普遍困境:
如何解决该问题从而保证算法能够更加合理地使用算力资源?我们需要先了解AI视觉识别推理服务所具备的一些典型特征: 1、业务在进行模型推理部署时绑定固定的算力资源,出现多AI推理任务抢占一张推理卡资源的情况,而其他推理卡还有空余资源,导致算力资源的浪费; 2、模型推理请求量会因实际业务需求变化而存在突增或下降的情况,这就要求推理平台能够及时响应; 3、项目现场情况复杂,部署的AI算法种类较多,然而不同算法推理任务所消耗资源的波峰和波谷分布时间段差异较大,且无明显规律。 结合推理服务的这些特征,想要提升算力利用率,达到降本增效的效果,就需要同时满足以下两个要求: 1、能够方便、快速部署AI应用进行推理任务;(具体内容请点击这里查看"传送门") 2、能够自动监控算力资源使用情况,主动调度推理任务到合适的节点使用相应的算力。
极星平台推理任务调度方案
// 在介绍极星平台推理任务调度方案之前,我们先了解一下业内Kubernetes所支持的调度特性: Kubernetes支持Deployment或RC全自动调度方式、NodeSelector定向调度、NodeAffinity Node亲和性调度、PodAffinity Pod亲和与互斥调度策略。 以NodeSelector 定向调度为例,当需要将Pod调度到指定的Node时,可以通过Node的标签(Label)和Pod的NodeSelector属性相匹配。
极星平台基于云原生Kubernetes基座,结合市场需求和自身业务特点总结沉淀出了一套独有的推理任务调度方案并成功落地。
基于云原生监控工具Prometheus进行定制开发,通过监控Kubernetes集群Master和Node各算力节点的运行指标,如:CPU、GPU显存、GPU算力、内存、磁盘等等,极星平台根据监控参数的实时数据、任务负载等信息,对AI算法推理任务进行评估,从而计算出节点的算力占用率。 当节点算力占用率超过预设阈值(如90%)时,此AI算法推理任务将被标记为需调度状态;当检测到集群环境中有合适的节点和算力资源的时候, 极星平台能够自动将AI算法推理任务调度到指定节点使用相应的算力资源。 同时,极星平台通过实现算力发现、算力注册、算力路由、调度策略等能力,并辅以调度重试、调度回退等机制,根据调度策略结合上述 Kubernetes的调度能力,来实现推理任务的合理调度。
随着国产化趋势愈加明显,国产化推理卡性能直线提升,这种趋势下极星平台推理任务调度方案也支持在多厂商混合推理卡上运行。一方面是方便客户利旧,一方面也是向国产化和多厂家兼容。
极星平台推理任务调度方案可以合理利用算力资源运行推理任务,最大程度降低客户的硬件投入和维护成本,优化算力资源配置,增强算力使用效能,让算力效益最大化,最终为客户实现降本增效。 极星平台是基于极视角强大技术能力打造的AI应用开发及服务平台,致力于帮助企业客户低成本实现AI与业务的结合,快速完成AI能力的构建。 关于极星平台的更多技术亮点、如何为客户解决AI应用过程中的实际痛点、如何提升AI落地效率,敬请关注「极讲堂」栏目后续推出。
作者:鹿与羊 极视角系统开发中心 JAVA开发工程师 “算法繁星·智能引擎 数字世界的新底座 ” 「极讲堂」 「极讲堂」是极视角全新打造的技术主题栏目,每期会邀请一位极视角的产品或技术发言人,围绕极市平台、极星平台、极栈平台、极光AI算法盒子、算法商城等核心主题,公开分享其产品逻辑、底层技术、创新应用等背后的故事。技术驱动发展,技术引领未来,极视角将带您领略技术的魅力! 第一期回顾:独家「交付秘籍」,极星平台如何实现AI算法快速部署? AI 项目需求登记表 如您有任何AI视觉算法类的项目场景需求,欢迎扫码提交需求表单,我们将安排专业顾问与您联系!期待与您携手合作,共创未来!
- END -