按省份选择

搜索

国内

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京

上海

广东

北京城区

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

广州

深圳

大模型高效系统推理工程师 面议

深圳市 经验不限 硕士及以上 高校/科研机构
立即申请

鹏城实验室

科研机构 | 1000-9999人

收藏
职位描述
01

岗位职责

●针对端(手机/智能终端设备)、边(边缘智能盒)、云(数据中心)的异构算力环境(CPU/GPU/NPU等),按照项目需求设计并构建高效的大语言模型(LLM)、多模态模型专属推理系统。 ●针对大模型推理效率及成本进行优化,解决算力堵点、优化缓存效率、动态降低模型推理时的计算冗余,实现低成本的大模型推理部署。 ●与算法团队紧密协作,将大语言模型、多模态模型(如图文理解、语音交互等)集成到推理系统中,优化模型在实际场景中的推理效率(如模型量化、剪枝、异构算子优化)。 ●编写系统设计文档、技术方案与代码注释,确保推理系统的可维护性、可扩展性及标准化交付。
02

任职要求

(一)基本条件 ●硕士及以上学历,计算机科学、软件工程、电子工程等相关专业。 ●5年以上高性能计算、模型推理系统研发经验,有大语言模型/多模态模型部署、异构算力优化、端边云协同项目经验者优先。 (二)专业技能 ●熟悉大语言模型(如GPT系列、LLaMA、BERT)和多模态模型(如StableDiffusion、CLIP)的推理原理及优化方法,具备模型轻量化(量化、剪枝、蒸馏)和加速部署经验。 ●精通DNN高性能推理计算框架(如TensorRT、ONNXRuntime、MNN、TNN),掌握CUDA/CuDNN、OpenCL、ARMNEON等异构编程技术,能针对CPU/GPU/NPU等硬件特性优化推理算子。 ●熟悉分布式推理架构(如DeepSpeed、Megatron-LM推理优化),掌握模型并行、数据并行、流水并行等分布式策略,具备大规模集群推理系统调优经验。 ●了解端边云协同技术(如边缘计算框架KubeEdge、云原生平台K8s/Docker),熟悉边缘设备(如智能摄像头、工业网关)的算力约束与部署要求。 (三)工具与框架 ●有开源推理框架(如ONNXRuntime、TritonInferenceServer)贡献经验或大规模模型推理系统落地案例。 ●具备语音识别、图像生成等多模态任务的端边云协同推理实战经验。 ●熟熟练使用Python/C++,具备高性能代码开发能力;熟悉PyTorch/TensorFlow等深度学习框架的推理部署流程。 ●对算力资源调度(如任务分配、资源隔离)有实践经验,熟悉容器化部署与Serverless推理架构。 (四)能力素质 ●具备复杂系统问题分析能力,能快速定位异构算力环境下的推理性能瓶颈并设计优化方案。 ●有强烈的技术探索精神,关注大模型推理前沿技术(如稀疏推理、动态图优化、近似计算),具备创新落地能力。 ●良好的团队协作与跨领域沟通能力,能与算法、硬件、产品团队高效配合,推动技术方案落地。 ●具备严谨的工程思维,重视代码质量与系统可维护性,熟悉CI/CD流程与DevOps工具链。
03

工作地点

单位介绍查看所有职位>>

鹏城实验室是中央批准成立的突破型、引领型、平台型一体化的网络通信领域新型科研机构。作为国家战略科技力量的重要组成部分,实验室聚焦宽带通信、新型网络、网络智能等国家重大战略任务以及粤港澳大湾区、中国特色社会主义先行示范区建设的长远目标与重大需求,按照“四个面向”的要求,开展领域内战略性、前瞻性、基础性重大科学问题和关键核心技术研究。

x