HBM Predictor与USENIX ATC‘24论文解析:从研究到开源实现的完整历程
HBM Predictor与USENIX ATC24论文解析从研究到开源实现的完整历程【免费下载链接】hbm-predictorthis project is an in-depth>项目地址: https://gitcode.com/openeuler/hbm-predictor前往项目官网免费下载https://ar.openeuler.org/ar/ 高带宽内存故障预测打破内存墙前的关键技术突破在当今大数据和人工智能时代高带宽内存High Bandwidth Memory简称HBM已成为高性能计算系统的核心组件。然而HBM的可靠性问题一直是制约其大规模应用的瓶颈。今天我们将深入探讨厦门大学与华为2012庞加莱实验室合作开发的HBM故障预测器这个在USENIX ATC24会议上发表的开源项目如何通过分层预测框架解决这一挑战。 HBM Predictor多层级的智能故障预测系统项目核心功能解析HBM Predictor是一个分层级、全方位、非侵入式的HBM故障预测框架。该项目基于从19个数据中心收集的实际数据构建了从服务器级别到内存单元级别的多层次预测模型。通过机器学习算法系统能够提前预测HBM故障为数据中心运维提供宝贵的时间窗口进行预防性维护。关键技术特点分层预测架构支持服务器级、bank级、行级和列级四个层次的故障预测实时监控能力基于实际数据中心运行数据进行持续学习高精度预测采用随机森林等机器学习算法F1分数最高可达0.79开源数据集包含脱敏处理的实际故障数据促进学术研究 项目结构与数据资源数据集详解项目提供了丰富的数据资源分为两个主要部分原始数据(data/raw_data/)包含错误发生的位置、时间和类型等详细信息覆盖19个数据中心的实际运行数据已进行脱敏处理保护敏感信息处理后的数据(data/processed_data/)data_for_server-level_prediction.csv- 服务器级预测数据data_for_bank-level_prediction.csv- bank级预测数据data_for_row-level_prediction.csv- 行级预测数据data_for_col-level_prediction.csv- 列级预测数据代码架构设计项目的代码结构清晰分为两大模块分析模块(analyses/)avg_temp_distribution.py- 平均温度分布分析ce_storm_machine.py- 纠错码风暴分析power_impact.py- 功耗影响分析spatial_locality.py- 空间局部性分析等多个专项分析工具预测模块(prediction/)prediction_performance.py- 预测性能测试diff_model.py- 不同模型对比diff_observation_window.py- 观察窗口分析diff_prediction_window.py- 预测窗口分析 快速开始5分钟部署HBM预测器环境配置步骤安装Python依赖pip3 install -r requirements.txt运行预测测试cd prediction python3 prediction_performance.py预测结果示例运行预测代码后您将看到类似以下输出Test1 for each predictor Results of row-level predictor (Precision, Recall, F1_score) RF with threshold0.55: 0.6979, 0.8816, 0.7791 Results of col-level predictor (Precision, Recall, F1_score) RF with threshold0.6: 0.7267, 0.8667, 0.7905 Results of bank-level predictor (Precision, Recall, F1_score) RF with threshold0.55: 0.6681, 0.7381, 0.7014 Results of server-level predictor (Precision, Recall, F1_score) RF with threshold0.6: 0.3326, 0.5675, 0.4194 技术深度USENIX ATC24论文创新点研究背景与挑战在USENIX ATC24会议上发表的论文《Removing Obstacles before Breaking Through the Memory Wall: A Close Look at HBM Errors in the Field》提出了几个关键发现HBM故障模式分析通过对大规模数据中心数据的分析识别出HBM故障的主要模式和特征时空相关性发现HBM故障在时间和空间上具有明显的相关性温度与功耗影响验证了温度和功耗波动对HBM可靠性的显著影响分层预测模型设计论文提出的分层预测模型具有以下创新粒度自适应根据不同应用场景选择不同粒度的预测层级特征工程优化针对HBM特性设计了专门的特征提取方法实时性保证在保证预测精度的同时满足实时性要求 实际应用场景与价值数据中心运维优化HBM Predictor可以帮助数据中心预防性维护提前预测故障避免突发停机资源优化合理安排维护时间减少业务影响成本控制降低硬件更换频率延长设备寿命硬件设计与测试对于硬件制造商该项目提供了可靠性验证基于真实数据的可靠性测试基准设计优化识别设计缺陷改进下一代产品质量监控建立持续的质量监控体系 性能评估与基准测试预测精度分析根据项目提供的测试结果预测层级精确率(Precision)召回率(Recall)F1分数行级预测69.79%88.16%77.91%列级预测72.67%86.67%79.05%Bank级预测66.81%73.81%70.14%服务器级预测33.26%56.75%41.94%模型优化建议基于项目代码中的参数设置建议阈值调整根据不同应用场景调整预测阈值特征选择根据实际数据特征优化特征工程模型融合考虑多模型融合提高预测稳定性 高级配置与自定义扩展自定义预测参数在prediction/prediction_performance.py文件中您可以调整# 修改预测阈值 pre_threshold 0.6 # 默认阈值 # 调整下采样比例 down_sample None # 关闭下采样添加新的分析模块项目支持扩展新的分析功能在analyses/目录下创建新的Python文件实现特定的分析逻辑集成到现有的数据处理流程中 学术贡献与引用规范论文引用格式如果您在研究中使用了本项目的数据或代码请引用USENIX ATC24论文inproceedings{298591, author {Ronglong Wu and Shuyue Zhou and Jiahao Lu and Zhirong Shen and Zikang Xu and Jiwu Shu and Kunlin Yang and Feilong Lin and Yiming Zhang}, title {Removing Obstacles before Breaking Through the Memory Wall: A Close Look at {HBM} Errors in the Field}, booktitle {2024 USENIX Annual Technical Conference (USENIX ATC 24)}, year {2024}, pages {851--867} }开源贡献指南项目欢迎社区贡献问题反馈通过issue报告bug或提出改进建议代码贡献提交pull request添加新功能数据分享在符合隐私政策的前提下分享更多数据 总结HBM预测技术的未来展望HBM Predictor项目不仅提供了一个实用的故障预测工具更重要的是为HBM可靠性研究建立了一个完整的框架。随着AI和HPC应用的快速发展HBM技术将在更多场景中得到应用而可靠的故障预测将成为确保系统稳定运行的关键技术。通过开源这个项目研究团队希望促进学术交流为HBM可靠性研究提供基准数据集加速技术发展降低研究门槛加速创新服务产业应用为数据中心和硬件制造商提供实用工具无论您是研究人员、工程师还是学生都可以从这个项目中获得宝贵的经验和启发。立即开始探索HBM Predictor共同推动高带宽内存技术的发展 【免费下载链接】hbm-predictorthis project is an in-depth>项目地址: https://gitcode.com/openeuler/hbm-predictor创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻