ilsvrc,遭reddit网友质疑
新手初入人工智能(图像处理方向),我该向什么方向发展?
计算机视觉方向目前主要有几大方向比较热门,我下面将分别从他们的发展过程与现状以及怎么入门学习来进行介绍。首先,计算机视觉的主要方向有:图像分类人脸识别目标检测图像分割关键点检测文字识别OCR编程与数学基础首先,人工智能毕竟是一个计算机学科,需要具备基本的编程功底与数学能力。具体来说,编程方面,需要熟悉Python编程,熟悉Numpy,Pandas,Opencv等库的使用,同时还得熟悉某个深度学习框架的使用,比如TensorFlow,Keras,PyTorch,Caffe等。
以上这些是必须具备的,如果能再有点C ,Java方面的基础就更好了。数学方面,肯定需要对大学的数学知识有一定的了解,比如求导与积分,偏导数,梯度下降之类的高数知识,以及线代和概率与统计等知识。如果对这方面知识不太熟悉,建议从课本上好好学学,当然也可以通过如下图所示的深度学习圣经即"花书"的前几章来学习。
图像分类图像分类是一个计算机视觉的经典方向。深度学习的火爆最早是因为Hinton带领他的学生使用深度神经网络参加了ImageNet大赛,其最后成绩远超使用传统方法的第二名一大截。由此引发了最近几年越来越热门的深度学习研究,在2012年及以后,在ImageNet比赛上出现了更多的网络结构,从最开始的AlexNet,到VggNet,GoogleNet,Inception,RestNet,Inception-ResNet-v1~3,Xception等。
每次新的网络的出现都让正确率上升了一大截,可以说ImageNet比赛推动了整个计算机视觉的发展。但是ImageNet的数据集太大,不太适合我们入门图像分类。我们可以使用mnist数据集,或者CIFAR-10数据集(如上图所示).CIFAR-10 数据集有 60000 张图片,每张图片均为分辨率为 32*32 的彩色图片(分为 RGB3 个信道)。
CIFAR-10 的分类任务是将每张图片分成青蛙、卡车、飞机等 10 个类别中的一个类别。具体关于CIFAR-10的详细介绍以及实例代码,大家可以关注我头条号置顶的那篇文章.人脸识别人脸识别在引入深度学习之前主要使用PCA降维后进行分类,在引入深度学习之后,采用了CNN来提取特征,然后使用SVM之类的分类器进行分类,但是本质上还是一个分类,需要提前录入人脸数据进行训练.直到FaceNet出现之后, 论文中提出了一种叫做triplet 的损失函数,主要目标是减低类内(同一个人)的距离,增加类间(不同的人)的距离.由此将原本的分类问题转变为了一个距离度量问题,是人脸识别变成了一个开放的问题,可以随时送入两张没有参与训练过的人脸图片提取特征向量,然后通过比较这两个向量的距离来判断相似性.后来又出现了各种各样的loss, 有些已经达到了目前state-of-art的效果,我在这里只是罗列下,具体各位可以关注我,后面我会推出人脸识别综述,与各种损失函数总结。
目前损失函数主要有:centerLosscontrastiveLossrangeLosslarge-marginl2-normAM-softmaxCosFaceArcFace大家如果想要入门的话,可以先下载一下lfw数据集,然后用TensorFlow实践一下经典的算法.目标检测与图像分割目标检测的任务是从一个复杂场景的图像中找到不同的物体,并且给出各个物体的边界框。
图像检测的三个著名的数据集是PASCAL VOC,ImageNet和微软COCO. PASCAL VOC包含20个物体的类别,而ImageNet包含一千多种物体类别,COCO有80中物体类别和150万个物体实例。自从2012年的ILSVRC竞赛中基于CNN的方法一鸣惊人之后,CNN已成为图像分类、检测和分割的神器。
其中在图像检测的任务中,R-CNN系列是一套经典的方法,从最初的R-CNN到后来的Fast R-CNN, Faster R-CNN 和今年的Mask R-CNN, 我们可以看到CNN在图像检测中是如何一点一点提高的。还有就是采用一步到位的检测算法的SSD与YOLO系列算法.这些算法的详细介绍,大家可以关注我头条号之前发布的文章.R-CNN 系列的四篇文章如下:R-CNN: https://arv.org/abs/1311.2524Fast R-CNN: https://arv.org/abs/1504.08083Faster R-CNN: https://arv.org/abs/1506.01497Mask R-CNN: https://arv.org/abs/1703.06870关键点检测人体骨骼关键点对于描述人体姿态,预测人体行为至关重要。
因此人体骨骼关键点检测是诸多计算机视觉任务的基础,例如动作分类,异常行为检测,以及自动驾驶等等。近年来,随着深度学习技术的发展,人体骨骼关键点检测效果不断提升,已经开始广泛应用于计算机视觉的相关领域。本文主要介绍2D人体骨骼关键点的基本概念和相关算法,其中算法部分着重介绍基于深度学习的人体骨骼关键点检测算法的两个方向,即自上而下(Top-Down)的检测方法和自下而上(Bottom-Up)的检测方法。
相应算法的详细介绍大家可以关注我头条号之前发布的文章.文字识别OCROCR(Optical Character Recognition, 光学字符识别)传统上指对输入扫描文档图像进行分析处理,识别出图像中文字信息。场景文字识别(Scene Text Recognition,STR) 指识别自然场景图片中的文字信息。
我这里主要介绍难度更大的场景文字识别的发展.自然场景图像中的文字识别,其难度远大于扫描文档图像中的文字识别,因为它的文字展现形式极其丰富:·允许多种语言文本混合,字符可以有不同的大小、字体、颜色、亮度、对比度等。 ·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样。 ·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。
·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理,比如沙地、草丛、栅栏、砖墙等。文字识别其实主要包含两个步骤, 文字检测与文字识别, 但是近年来也有出现了以CRNN(具体可以关注华中科大白翔老师的研究)为代表的一步到位的端到端的识别模型,效果也还不错.文本检测工作目前可以大致分为三类:一是基于分割的思想,通过分割网络提取文本区域,然后采取一些后处理方法获取边界框。
代表性的工作是发表在CVPR2016的“Multi-oriented text detection with fully convolutional networks”;二是基于候选框的思想,直接用一个神经网络来检测文本边界框。代表性的工作是发表在CVPR2016的“Synthetic data for text localization in natural images”;三是混合思想,它采用多任务学习的框架,结合了分割和边界框检测的方法。
代表性的工作是发表在ICCV2017的“Deep Direct Regression for Multi-Oriented Scene Text Detection”。而文字识别大致分为两类思路:其一是从单词或字符层面入手,设计单词分类器或字符分类器,将每一个单词或字符作为一类目标,进行多类别分类任务。
而近来循环神经网络大放异彩,它可以将文本识别看作一个序列标签问题,并能够直接输出标签序列。因此,第二种思路从序列层面入手,将文本看作一个字符序列,通过设计序列特征提取器,结合循环神经网络(RNN)和CTC模型,将文本序列作为一个整体进行识别。目前OCR方面比较经典的算法有CTPN,RRPN,DMPNet,SegLink,TextBoxes,FTSN,WordSup等, 具体可以关注我头条号,我后面会推出详细介绍.总结以上内容总结了目前计算机视觉方向比较流行的方向,以及一些经典的算法.能力有限,难免有总结的不到位地方,欢迎指正.最后,欢迎大家关注我的头条号,会有大量深度学习相关资源不间断放送.。
传统的CNN为什么深度越深的时候效果不好,残差网络却可以克服这问题?
至少针对图像规模而言,首先一个共鸣就是:搜集越深了局越好,比方本年ILSVRC2015的MSRA秒天秒地的成效可见一斑。而传统的深层神经搜集是做不到这么深的,一个首要缘故原由就是剃度会弥散可能爆炸。怎么休止传统深层神经搜集中呈现的剃度弥散可能爆炸能够参照batch normalization等要领。今朝常用的深层神经搜集之以是比之前的好,如CNN,大年夜略说来就是:(1)权值共享使得模型越发大年夜略,泛化伎俩更强;(2)局部毗邻使得对feature的抽象历程大年夜大年夜裁减了对空间干系性对依靠,使得模型对样本的畸变不敏感(如改变、扭曲等)。
本文地址:http://j4d.55jiaoyu.com/show-729949.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
推荐文档
- 11.往年大连中考满分是多少
- 12.为什么说学播音毁一生,原因有哪些
- 13.淘宝店铺的优质好评语大全
- 14.考研可改变第一学历吗、专科考研可以改变第一学历吗
- 15.民学网查出的学历国家承认吗(民学网查出的学历国家承认吗是真的吗)
- 16.往年轻薄商务笔记本电脑推荐-商务轻薄本性价比排行
- 17.承德护理职业学院(承德护理职业学院2023年招生计划)
- 18.wreak是什么意思wreak的翻译(wake,area是什么意思中文翻译)
- 19.电子科技大学A+类学科名单有哪些(含A、B、C类学科名单)
- 20.systematic是什么意思systematic的翻译(systematically是什么意思中文翻译)
- 21.leant是什么意思leant的翻译(lean,on什么意思中文意思)
- 22.华南农业大学是几本大学,华南农业大学是一本还是二本
- 23.包头中考考试科目时间预测安排,包头中考考哪几门考哪些课程
- 24.高考430分能上什么大学,430分高考能报啥学校
- 25.朱自清的散文代表作有什么(朱自清的散文代表作有什么散文集有什么散文诗集有什么)
- 26.浙江有几所大学是985和211,全国985和211大学名单汇总
- 27.i5,1155G7和R5,5600U哪款好-对比评测
- 28.荷兰什么叫-荷兰弟为什么叫荷兰弟,出演蜘蛛侠原因曝光
- 29.警察警衔工资改革新政策及新方案【全文】解读
- 30.电大专科(电大专科毕业论文)
- 31.广东省高级技工学校官网
- 32.广州大学专科
- 33.大连陆军学院,原大连陆军学院校址现在什么是什么学校
- 34.亲们,谁给一份南京大学的研究生招生简章?(河海大学
- 35.他日若遂凌云志全诗及出处
- 36.铜绿的化学式是什么有哪些性质
- 37.「佛山市顺德养正西山学校初中部」往年录取分数线
- 38.公办本科(公办本科和民办本科有什么区别)
- 39.外交学院是名牌大学吗
- 40.往年湖南高考成绩排名一分一段表
- 41.全国有8所烟草院校是哪些(这4所大学门槛低)
- 42.私人垄断资本主义基本概念是私人垄断资本主义
- 43.难以启齿,这8部影片可以一看(性教育适合看的影片)
- 44.美国独立战争的性质爆发战争的原因是什么
- 45.往年东莞市高中排名前十最新
- 46.大朗网络教育(大朗教育)
- 47.往年甘肃省高中排名最好的高中
- 48.逻辑思维训练有哪些方法优秀训练方法推荐
- 49.浙江大学教务管理系统
- 50.人类的动物老师有哪些这属于什么学科
- 51.往年山西高考状元榜_山西历届高考理科状元和文科状元
- 52.往年北京舞蹈学院艺术类招生简章招生人数及专业
- 53.航空最好的5个专业就业前景如何
- 54.太原科技大学怎么样及评价好不好太原科技大学口碑如何
- 55.满招损谦受益这句话的意思是什么出自哪
- 56.舍本逐末发生在什么时期含义是什么
- 57.女孩子首选十大专业什么专业适合女生
- 58.国防生是什么意思指的是什么
- 59.河南省三本学院有哪些2018最新三本院校名单
- 60.往年龙岩高中学校排名榜单龙岩十大优秀高中
- 51.成全球市值最高的,三星电子市值
- 52.往年诺基亚手机型号大全图,老款诺基亚手机型号大全图
- 53.京东方招聘,中联重科全国招聘是骗局
- 54.长庆油田工作怎么样,听说你老公在长庆油田工作......
- 55.铁岭人事人才网,哪些招聘网站可以免费发布招聘信息
- 56.笔记本能外接显卡吗,笔记本电脑能外接显卡么?如果能应外接什么样的
- 57.十堰武当路复线怎么走,关于将武当路复线
- 58.郭沫若写的中国银行四个字是什么字体,中国银行是什么字体
- 59.苹果序列号产地代码(苹果序列号产地代码H)
- 60.医院采购中标在哪里查,中标结果在哪里查询
- 61.怎么催客户立项采购,房企招采到底怎么做
- 62.恩阳火车站修在哪里,未来的恩阳什么样
- 63.目力老到什么意思,从南浔少年到一代竹刻艺术大家
- 64.关辛庄在什么地方,你家未来怎么建
- 65.城铁服务有什么项目,青荣城铁开通5周年
- 66.西江新城什么时候会旺,高明西江新城连挂两地
- 67.拓宽段和引道有什么区别,海新路主线拓宽改造段正式通车
- 68.广园市政建设怎么样,5市民获奖20万元
- 69.怎么去邹城孟子湖一中,邹城高中招生资格线及报名时间预测
- 70.职高装修设计是什么,男孩上了职高没前途

