题 目:赋能AI大模型协同训练的软件定义光智算中心网络生存性研究
报告人:赵志鹏 博士
时 间:2023年12月4日 18:30-19:30
地 点:信息学院 6228
团 队:智能计算技术与应用团队
报告人简介
赵志鹏,2019年博士毕业于天津大学智算学部计算机应用技术专业,师从吴斌教授,现就职于河南工业大学信息科学与工程学院。主要研究方向:数据中心全光交换与组网技术、光纤/无线融合网络中的人工智能技术。主持完成了一项省部级科研项目、主持在研一项厅级科研项目,并参与了5项国家级科研项目,第一作者发表光通信旗舰期刊《IEEE/OSA Journal of Optical Communications and Networking》、CCF B类期刊《Elsevier Computer Networks》等期刊和会议论文5篇,并以通讯作者等形式合作发表SCI期刊和会议论文10余篇。授权国家发明专利3项。荣获河南省教育厅科技成果一等奖一项(第7名)、河南省自然科学优秀论文一等奖一项(第1名)、河南省教育厅优秀论文一等奖一项(第1名)。
报告简介:
随着参数数量的不断增长,AI大模型的并行计算模式推动着具有超强运力的光智算中心网络的发展。AI大模型训练周期长,训练过程中极易出现可靠性问题,导致网络频繁中断,从而降低训练效率,因此亟需通过提升网络健壮性来确保训练高效可靠地进行。在协同大模型训练的光智算中心网络中,由于光模块脏污或光纤弯折导致的光路闪断会中断整个大模型的训练任务,成为大模型长周期并行训练过程面临的重要挑战。当前基于AI的预测方法无法精确定位所有光路故障。这成为亟待解决的难题。课题组围绕光智算中心光路生存性问题,提出流量驱动的思想来研究高精度、低能耗、低成本、高鲁棒性的光模块和光链路一体化故障定位与容错方法。主要创新点有:(1)关联流量调度构建动态流量热区来降低故障定位范围,并基于图神经网络设计动态检测迹算法以减小故障定位能耗和成本。(2)关联流量调度配置矩阵空时隙资源,设计多跳路由与调度容错算法,以提高鲁棒性。上述方法与技术的顺利实施,为智算时代国家“东数西算”新基建工程的发展奠定深厚的运力基础,进而配合大模型运行,促进智能、绿色算力的发展。
要求:1.近三年入职的教师必须参加;2.汇报团队的成员及研究生必须参加;3. 研究生一年级学生必须参加;4.其他老师和研究生积极参加。
信息科学与工程学院
2023年12月4日