打赏

相关文章

Linux内核学习17--SPI子系统

1 Linux下SPI子系统简介 关于SPI协议细节,之前写过:总线学习3--SPI_spi a0-CSDN博客 这次就不多写了,这次主要关注Linux下的使用,使用的环境是树莓派5。还是先看图吧,毕竟无图无真相。这个图B格看起来有点高。 不过对…

CANN集合通信库hccl分布式训练从入门到实战:昇腾NPU多卡集群Ring-AllReduce算法原理与性能优化全指南

前言 多卡分布式训练已经成了训练大模型的标配,而通信往往决定了整个系统的扩展效率。当你在Ascend 910集群上跑数据并行训练时,每个step结束后都要让所有NPU上的梯度保持同步——这件事听起来简单,做起来却充满细节。Ring-AllReduce是当前分…

FFmpeg HEVC (H.265) 解码器源码深度分析

本文基于 FFmpeg 最新源码(libavcodec/hevc 目录),对 HEVC 解码器的完整实现进行深度剖析,涵盖 HEVC 标准原理、FFmpeg 架构设计、各模块源码逻辑、文件依赖关系及关键算法公式。 目录 前言 HEVC 标准原理 2.1 块结构与划分 2.2 帧内预测 2.3 帧间预测 2.4 变换与量化 2.5 …

WorkTool:企业微信自动化机器人的终极解决方案

WorkTool:企业微信自动化机器人的终极解决方案 【免费下载链接】worktool 一款安全稳定的Android无障碍服务工具,支持控制企微/微信来运行的无人值守群管理企业微信机器人 项目地址: https://gitcode.com/GitHub_Trending/wo/worktool 还在为重复…

CANN数学算子库ops-math底层优化原理深度剖析:昇腾NPU上GELU激活函数三种实现方式的性能与精度权衡工程实践

前言 深度学习模型中的数学算子虽然单次计算量不大,但调用频次极高,其累积性能对整体推理吞吐有显著影响。昇腾CANN软件栈中的ops-math仓库承载着数学类基础算子的实现与优化,包括类型转换、维度变换、三角函数、指数对数、统计函数等核心计算…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部