●针对端(手机/智能终端设备)、边(边缘智能盒)、云(数据中心)的异构算力环境(CPU/GPU/NPU等),按照项目需求设计并构建高效的大语言模型(LLM)、多模态模型专属推理系统。
●针对大模型推理效率及成本进行优化,解决算力堵点、优化缓存效率、动态降低模型推理时的计算冗余,实现低成本的大模型推理部署。
●与算法团队紧密协作,将大语言模型、多模态模型(如图文理解、语音交互等)集成到推理系统中,优化模型在实际场景中的推理效率(如模型量化、剪枝、异构算子优化)。
●编写系统设计文档、技术方案与代码注释,确保推理系统的可维护性、可扩展性及标准化交付。
(一)基本条件
●硕士及以上学历,计算机科学、软件工程、电子工程等相关专业。
●5年以上高性能计算、模型推理系统研发经验,有大语言模型/多模态模型部署、异构算力优化、端边云协同项目经验者优先。
(二)专业技能
●熟悉大语言模型(如GPT系列、LLaMA、BERT)和多模态模型(如StableDiffusion、CLIP)的推理原理及优化方法,具备模型轻量化(量化、剪枝、蒸馏)和加速部署经验。
●精通DNN高性能推理计算框架(如TensorRT、ONNXRuntime、MNN、TNN),掌握CUDA/CuDNN、OpenCL、ARMNEON等异构编程技术,能针对CPU/GPU/NPU等硬件特性优化推理算子。
●熟悉分布式推理架构(如DeepSpeed、Megatron-LM推理优化),掌握模型并行、数据并行、流水并行等分布式策略,具备大规模集群推理系统调优经验。
●了解端边云协同技术(如边缘计算框架KubeEdge、云原生平台K8s/Docker),熟悉边缘设备(如智能摄像头、工业网关)的算力约束与部署要求。
(三)工具与框架
●有开源推理框架(如ONNXRuntime、TritonInferenceServer)贡献经验或大规模模型推理系统落地案例。
●具备语音识别、图像生成等多模态任务的端边云协同推理实战经验。
●熟熟练使用Python/C++,具备高性能代码开发能力;熟悉PyTorch/TensorFlow等深度学习框架的推理部署流程。
●对算力资源调度(如任务分配、资源隔离)有实践经验,熟悉容器化部署与Serverless推理架构。
(四)能力素质
●具备复杂系统问题分析能力,能快速定位异构算力环境下的推理性能瓶颈并设计优化方案。
●有强烈的技术探索精神,关注大模型推理前沿技术(如稀疏推理、动态图优化、近似计算),具备创新落地能力。
●良好的团队协作与跨领域沟通能力,能与算法、硬件、产品团队高效配合,推动技术方案落地。
●具备严谨的工程思维,重视代码质量与系统可维护性,熟悉CI/CD流程与DevOps工具链。
{"address":"新锋路","zone":["广东省","深圳市","南山区"],"latitude":22.626382,"name":"鹏城实验室石壁龙园区一期","longitude":113.932408}
鹏城实验室是中央批准成立的突破型、引领型、平台型一体化的网络通信领域新型科研机构。作为国家战略科技力量的重要组成部分,实验室聚焦宽带通信、新型网络、网络智能等国家重大战略任务以及粤港澳大湾区、中国特色社会主义先行示范区建设的长远目标与重大需求,按照“四个面向”的要求,开展领域内战略性、前瞻性、基础性重大科学问题和关键核心技术研究。