本文深入探讨了AI相关职业路径涵盖AI基础设施、大模型数据工程、评测工程、具身智能等多个方向。作者详细分析了具身智能领域的挑战与现状建议谨慎选择。同时文章重点介绍了AI基础设施工程师的职责与层级包括算子优化、编译器研发、分布式系统等并指出学历在AI Infra领域的重要性。最后作者推荐解决方案工程师和Agent harness工程师作为更务实的选择。对于想要进入AI领域的小白程序员本文提供了宝贵的职业规划参考和避坑建议。本文详细解释了关于AI相关职业选择的思考。以下是我经过调研后得出的方向但后文会详细阐述我会淘汰哪些部分以及为什么。我观察到的几个方向AI Infra / AI 基础设施工程构建分布式训练平台做资源调度与 DevOps再往上走就是主管公司 AI 基础设施。大模型数据工程面向训练、评测、应用的数据管线包括采集清洗去重标注质量控制样本增强数据分布治理Benchmark 评测工程设计任务集、评测集、指标体系、红队测试、回归用例和对比平台。核心不在“手工测试”而在于把模型质量体系工程化。具身智能数据工程师做数据采集、清洗、切片、标注、质检、存储、版本管理、数据回放、训练数据读取接口让算法团队可以稳定拿到高质量数据训练模型。具身智能仿真工程师使用 Isaac Sim、Gazebo、MuJoCo、Unity、Unreal 等平台搭建仿真环境导入机器人 URDF / SDF调整关节、碰撞、摩擦、传感器做 RGB、深度图、LiDAR、IMU 等传感器仿真批量跑实验支持 Sim2Real把仿真中训练出的策略迁移到真实机器人。SIT 的机器人仿真岗位其实就很典型维护多平台仿真环境、设计机器人 / 环境 / 传感器 / 物理配置资产、调物理参数、做传感器仿真、支持 Sim2Real、接 ROS / ROS2、自动化实验。具身智能评测工程师设计 benchmark、测试任务、评分指标、自动化评测脚本、失败案例分析、测试报告。比如具身 VLA 测评岗位通常会要求构建多维度、可量化的 benchmark覆盖感知、认知、规划、控制等链路。仿真岗位里也经常包含 benchmarking 和系统级评测因为仿真本身就是测试模型的重要平台。高性能计算工程师高性能计算工程师处于 AI 工程化的金字塔尖主要负责算力芯片底层的性能压榨跨节点通信优化如 NVLink 机制深度学习框架的底层重构解决方案工程师FDE或前沿部署工程师这是衔接客户与研发的桥梁。把客户需求转化为产品提供 demo 说服客户在客户侧部署对研发侧做反馈与协调。Agent harness 工程师Agent Model Harness。这个方向更多是在构建 AI 与现实世界之间连接的系统、工具和桥梁。做产品会很关键。可以分成三个大方向我觉得大体上可以拆成三个方向具身智能方向AI Infra 方向AI 应用方向关于具身智能关于具身智能不得不说的是这绝对不是短期内的好方向。具身智能远未成熟。现在即使是最好的模型实际执行特定任务的成功率也还不高。而机器人在现实场景中的容错极低做错一点带来的后果也不小比如摔坏杯子、打烂东西。如果想提升这个成功率而且仅仅只是单任务成功率就需要克服以下问题硬件问题维护、损坏、灵活度等。数据严重不足即使想从人类视频数据学习也需要先拥有一个对世界有基本认知的模型。想实现通用性数据会成为严重瓶颈长尾场景太多了具身智能注定只能先从特定工业领域优化下手。Gap 问题仿真环境与实机表现差距很大仿真环境和现实环境差距大不同实机机器人之间也有 gap。想实现迁移和泛化还有很多问题要攻克。仅靠视觉不够只靠视频数据、只靠视觉并不足以实现通用具身智能。很多场景需要预判不仅需要物理规则还需要识别不同对象的意图。再进一步人闭上眼睛也能从口袋拿东西、能挠痒这说明我们的大脑即使闭眼也对空间有认知而现在的模型做不到。触觉、听觉、嗅觉在一些场景下也很重要而这些都需要大量高质量数据。安全性机器人犯错的后果太大。以上这些问题注定了具身智能无法在 3 到 5 年内成熟甚至 10 年都难说。所以我觉得不适合过早进入这个领域。而且具身智能不像 LLMLLM 依赖网络传播机器人不行。一方面你需要庞大的机器人基数而机器人基数又依赖于具身智能是否已经能解决现实任务这本身就是一个循环。也就是说具身智能即使到达 GPT-3 时刻它的扩张也会是缓慢的。到那个时候再入局依旧会有海量机会。而且机器人未必是人形各种各样形态的专用机器人都会出现自动驾驶就是其中一个。这也是我为什么不太建议别人现在去从事具身智能行业除非你真的非常有热情愿意赌。因此我们可以先淘汰掉和具身智能强绑定的方向。关于 AI InfraAI Infra 有很多子方向我们需要从最底层开始解构。从芯片往上看AI 芯片有很多类型GPUNPUTPULPU针对不同用途与模型底层会有不同优化。芯片之上还需要有汇编与指令集。再往上是并行计算框架比如CUDACANN再往上是 AI 编译器与 DSL比如TritonTVMXLA再往上是分布式通信InfiniBandRDMANCCLHCCL然后是深度学习框架PyTorchTensorFlow / JAXMindSpore再到推理与训练加速推理引擎vLLM、SGLang、TensorRT算子融合与量化训练加速DeepSpeed、Megatron-LM再往上是资源调度与虚拟化、容器化编排KubernetesDockerMIGvGPU再上层就是一些跟传统后端和应用更相关的东西了。一个我认为必须避免的方向不要尝试去做与 GPU 不相关的泛 AI 应用工程比如那种把 AI 集成到企业里的宽泛岗位。因为这里会导致竞争飞速加剧。比如所谓 AI 应用工程师这里面会挤满很多转岗过来的人竞争激烈程度会非常接近前端和 Java 后端。实际上后端转向 AI Infra 是相对容易的这也是一个不错的长期方向。不同层级对应的岗位算子 / 高性能计算HPC关键词GPU / NPU / LPU 架构汇编指令集CUDACANN核心职责针对特定芯片架构开发和优化深度学习算子比如矩阵乘法、卷积手写内核代码解决算力瓶颈。AI 编译器研发关键词TritonTVMXLAMLIRLLVM核心职责做图层面的优化比如算子融合、显存优化、底层代码生成以及图编译器与不同硬件后端的对接。大模型训练 / 分布式系统关键词InfiniBandRDMANCCL / HCCLDeepSpeedMegatron-LMPyTorch / JAX核心职责设计并优化分布式训练策略比如数据并行、张量并行、流水线并行等解决多机多卡通信带宽瓶颈优化 checkpoint 读写保证长时间训练的容错与稳定性。AI 部署与推理服务加速推理引擎关键词vLLMSGLangTensorRTONNX Runtime算子融合KV Cache 优化模型量化FP8 / INT8 / INT4核心职责针对业务场景对模型进行极致的推理加速降低 token 吐出延迟提升吞吐量。AI 平台 / 云原生调度工程师关键词KubernetesDockerMIGvGPUGolang传统微服务架构核心职责管理成百上千张显卡资源实现 GPU 资源的虚拟化隔离、池化、弹性扩缩容、任务排队调度以及 AI 训练平台的后端接口开发。一个很现实的问题这些层之间其实是互相可以融合的向上向下都可以。但我也联系了多个 AI Infra 行业从业者他们普遍认为这个行业对学历要求高。如果没有学历就必须在著名开源项目上做核心贡献而且往往不是一年内就能做到的进大厂的难度也会更高。我的现实结论综上所述我目前认为解决方案工程师FDE或前沿部署工程师Agent harness 工程师才是更务实的选择。最后如果说程序员已经是高薪职业那么干AI的程序员就是高薪中的高薪。现在的市场已经用数据给程序员指明了方向学AI大模型就是冲刺高薪的最优解看着身边越来越多的同行转型大模型、拿到高薪offer很多人心里都动了心但真正的难题来了零基础小白不知道从哪入门有基础的程序员找不到系统学习路径实战项目练手无门面试不知道考什么别慌今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包覆盖从入门到实战、从理论到面试、从基础到进阶的全流程所有资料均已整理归档无冗余、无套路免费分享给每一位想抓住AI风口的程序员和小白扫码免费领取全部内容1、大模型系统化学习路线2、大模型学习书籍文档3、AI大模型最新行业报告4、大模型项目实战配套源码5、大模型大厂面试真题四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容6、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】