本团队是终端云下的AI Lab, 主要针对多模态大模型展开相关算法研究和落地,充分挖掘多模态预训练大模型在开放场景交互图文音对话、可控图像\视频生成、Agent等相关领域落地应用。
【工作内容】 1、 跟进交互式图文音对话基础底座模型的最新前沿进展,对包括但不限于桥接式多模态网络架构设计、原生多模态大模型训练等领域展开相关研究,产出高水平论文及相关专利,部署相关模型在云端或者小型化到端侧提供相关服务。 2、 跟进可控(个性化)Text-to-Image/Video Generation等相关领域的最新前沿进展,开展相关研究,产出高水平论文及相关专利,部署相关模型在云端或者小型化到端侧提供相关服务。 3、 跟进Agent相关前沿技术,结合实际场景展开相关探索和预研。
【岗位要求】 1. 硕博在读,计算机、人工智能、电子信息等相关专业(尽量二年级及以上); 2. 熟悉MLLM, Stable Diffusion Model, DiT, SAM,MOE架构等领域相关算法; 3. 良好的科研能力和团队合作精神,有CV三大会及ICML\NeurIPS\ICLR等国际会议第一作者优先; 4. 实习时间至少六个月,可长期实习者优先(注意没有实习后直接转正通道,所以有此需求的同学可以直接忽略)。 5. 工作地:北京/深圳/上海(北京优先) 6. 优秀的后续可以推荐天才少年通道面试。
【合作Mentor】 魏龙辉,专注于多模态及开放视觉相关领域研究。当前已累计发表三十余篇顶会/顶刊,据谷歌学术统计上述论文引用已达3800余次,其中单篇一作最高引用达1900余次。分别荣获AI2000评选的2022年度以及2023年度多媒体领域最具影响力学者提名。ACM MM'24领域主席,在VALSE、GAMES、ChinaMM等相关学术会议\研讨会上就视觉或多模态预训练大模型等相关主题进行受邀报告。
欢迎感兴趣的同学发送简历至weilonghui1@huawei.com,来信请注明最低实习时长。
|