作为深度学习中最热门的研究领域之一,计算机视觉领域吸引了大量科研人员和从业者的关注。然而,近年来,一股“劝退”风潮悄然在网络间蔓延,关于“人才饱和”、“门槛高耸”、“竞争白热化”乃至“大厂offer难求”的言论不绝于耳,让不少该领域的追梦者心生迷茫。那么,这个曾经的前沿阵地,为何会遭遇如此多的质疑?

计算机视觉,简称 CV,是指用计算机实现人的视觉功能,形成对客观世界三维场景的感知、识别和理解。其主要包含以下十个任务:

图像分类

图像分类是根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。图像分类应用在许多领域,如安防领域的人脸识别和智能视频分析交通领域的交通场景识别等。

目标检测

目标检测是指给定一张图像或是一个视频帧,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。目标检测多用于智慧交通(异常事件检测、交通流量监控与红绿灯配时控制)、工业检测等。

目标跟踪

目标跟踪旨在跟踪一段视频中的目标的运动情况。目标跟踪目前广泛应用在体育赛事转播安防监控、无人车、机器人等领域。

图像语义分割

图像语义分割是对图像中的每一个像素进行分组/分割,目前广泛应用于医学影像中辅助诊断无人车驾驶中分割街景来避让行人和车辆等。这一领域主要分为有监督语义分割、无监督语义分割、视频语义分割等。

实例分割

在语义分割的基础上,进一步区分属于同一个类别的不同实例。

场景文字识别

场景文字识别是指在图像背景复杂、分辨率低下、字体多样、分布随意等情况下,将图像信息转化为文字序列的过程

图像生成

图像生成是指根据输入向量,生成目标图像。具体的应用场景有:手写体生成人脸合成风格迁移图像修复等。

人体关键点检测

人体关键点检测是指通过人体关键节点的组合和追踪来识别人的运动和行为,为游戏、视频等提供新的交互方式

视频分类

视频分类是对一个由多帧图像构成的、包含语音数据、包含运动信息等的视频对象进行分类

度量学习

度量学习能够用于分析对象时间的关联、比较关系。主要应用于辅助分类聚类问题,也广泛用于图像检索、人脸识别等领域。

然而,随着技术的日益成熟与应用的广泛拓展,CV领域的竞争也愈发激烈,对从业者的要求也随之水涨船高。具体有哪些岗位需要CV领域的人才呢,小编整理了几家大厂对岗位的任职要求,我们一起来看一下:

图片

图像开发工程师

1

岗位职责

1.结合产品应用场景负责图像的调优;

2.负责新的Sensor/ISP的评估和选型,撰写评估报告;

3.负责图像技术的应用和图像策略的优化,保证图像效果的领先性。

2

 所需技能

1.熟悉目前摄像机的主流图像平台,具有两年以上相关的调试经验;

2.熟悉图像处理算法,包括对比度增强、3D降噪、宽动态等,具有相关设计开发经验者优先;

3.熟悉Linux操作系统,熟练掌握C语言,具备嵌入式软件开发经验。

图片

计算机视觉算法工程师

1

岗位职责

计算机视觉相关算法研发,包括但不限于人脸、图像、视频、文字等方向的视觉技术,如图像分类、图像分割,图像合成、目标跟踪、目标检测、图像检索、自然场景文本检测与识别、工业检测、视频分析、模型加速、模型压缩等;主要应用于园区、商超、交通、物流、图像内容审核等业务场景。

2

 所需技能

1.具备丰富的视频图像处理和分析、机器学习/深度学习等相关领域的研究和实践经验,动手能力强,能熟练运用caffe/pytorch/mxnet/tensorflow等深度学习工具之一解决问题;

2.曾在领域内的顶级会议或顶级期刊(例如:CVPR, ICCV, ECCV, NIPS, ICML, KDD,PAMI,IJCV等)发表论文者优先;

3.良好的逻辑和数据分析能力,Kaggle、阿里天池大赛、以及相关学术会议组织的权威比赛获奖者优先;

4.有交通、医疗、园区、OCR、安防等视觉相关项目落地经验者优先。

图片

多模态算法

1

岗位职责

1.研发和优化针对跨境电商平台的AI驱动视频生成工具,自动将商品描述、用户评论和市场营销文本转换为高质量的视频内容;

2.设计和实现视频编辑算法,使视频自动调整以符合不同国家和地区的文化差异和语言要求,包括但不限于字幕翻译、视觉元素本地化和风格调整等;

3.参与构建和训练多模态大模型,集成文本、图像和视频数据,以实现语义丰富、内容相关的视频自动生成;

4.探讨利用多模态交互技术,包括语音识别和图像分析,来提升视频编辑的智能化程度,并结合用户电商行为数据的反馈来优化视频生成系统。

2

 所需技能

1.本科及以上学历,机器学习、CV、NLP等相关专业有扎实的理论基础和实践经验;

2.对计算机视觉技术有深入理解,在视频内容生成、自动化编辑或类似领域有实际项目经验,曾参与过大规模机器学习项目,有视频生成类项目经验者优先;

3.具备扎实的数据结构、算法和编码能力,精通至少一种编程语言,如C/C++/JAVA/Python等,有ACM-ICPC类竞赛奖牌者优先;

4.熟悉Tensorflow/Torch开发,有NLP、CV相关项目经验者优先;

5.在KDD,ICML,NeurIPS,ACL,ICCV,CVPR等相关国际会议上有文献发表者优先。

图片

视频编解码工程师

1

岗位职责

1.视频/图像编解码:负责H266、H265、SCC、XR编码、AI编码、轻压缩等视频多媒体编解码;

2.编码传输联动:负责音视频编码和传输协同、实现端到端体验增强。

2

 所需技能

1.计算机、软件工程等相关专业,熟悉C、C++编程;

2.熟悉视频编解码原理,熟悉H.264、H.265、AV1等常见编解码标准;

3.有编解码算法优化、视频压缩等相关经验者优先考虑。

在了解到具体的计算机视觉岗位时,我们不难发现其需求量相对有限,这确实导致了学习者众多而招聘机会稀缺,进而加剧了市场竞争的激烈程度。

然而,面对这样的现状,是否就意味着机器视觉领域的追梦者只能被动接受“劝退”的命运呢?答案显然是否定的。

既然我们已对各大岗位的任职要求有了清晰的认知,那么面向就业学习便是能帮助我们化挑战为机遇的关键时刻。

多刷招聘软件,了解所学专业的岗位需求;确定自己的未来发展方向,提前规划、积极准备,不断提升自己的专业能力。

如果说,你以后想做算法工程师,根据我们了解到的任职要求,你需要:

1

专业知识

包括视频图像处理和分析、机器学习/深度学习等相关领域;

2

深度学习工具

熟练运用caffe/pytorch/mxnet/tensorflow等深度学习工具;

3

论文

在领域内的顶级会议或顶级期刊(例如:CVPR, ICCV, ECCV, NIPS, ICML, KDD,PAMI,IJCV等)中发表论文;

4

竞赛

参加Kaggle、阿里天池大赛、以及相关学术会议组织的权威比赛获奖者;

5

编程能力

掌握主流编程语言,具备良好的编程能力;

6

实习

有未来想从事领域的视觉相关项目落地经验。

这样看,未来努力的方向是不是就很清晰了。当然,即使确定了目标和方向,也会在追梦的路上遇到一些始料不及的坎坷。有些同学会为了论文而发愁,有些同学为准备比赛而焦虑,也有的同学因为找实习频频被拒而一蹶不振。

面对论文的难题,我们拥有资深的学术导师团队,他们来自各大高校及科研机构,拥有丰富的科研经验和深厚的学术功底。

 

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐