深度视觉
Awesome Deep Vision ¶
受启发的计算机视觉深度学习资源精选列表 awesome-php 和 awesome-computer-vision.
维护者 - Jiwon Kim, Heesoo Myeong, Myungsub Choi, Jung Kwon Lee, Taeksoo Kim
该项目没有得到积极维护.
Contributing¶
请随时 pull requests 添加文件.
Sharing¶
Papers¶
ImageNet Classification¶
(来自 Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton,ImageNet Classification with Deep Convolutional Neural Networks,NIPS,2012.) * 微软(深度残差学习) [Paper][Slide] * Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognition, arXiv:1512.03385. * 微软(PReLu/权重初始化)[论文] * Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, arXiv:1502.01852. * 批量标准化 [论文] * Sergey Ioffe、Christian Szegedy,批量归一化:通过减少内部协变量偏移加速深度网络训练,arXiv:1502.03167. * GoogLeNet [论文] * Christian Szegedy、Wei Liu、Yangqing Jia、Pierre Sermanet、Scott Reed、Dragomir Anguelov、Dumitru Erhan、Vincent Vanhoucke、Andrew Rabinovich,CVPR,2015 年. * VGG-Net [Web] [论文] * Karen Simonyan 和 Andrew Zisserman,用于大规模视觉识别的超深卷积网络,ICLR,2015 年. * AlexNet [论文] * Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton,使用深度卷积神经网络进行 ImageNet 分类,NIPS,2012 年.
Object Detection¶
(来自 Shaoqing Ren、Kaiming He、Ross Girshick、Jian Sun,Faster R-CNN:使用区域提议网络实现实时目标检测,arXiv:1506.01497.)
- PVANET [论文] [代码]
- Kye-Hyeon Kim、Sanghoon Hong、Byungseok Roh、Yeongjae Cheon、Minje Park、PVANET:用于实时对象检测的深度但轻量级神经网络,arXiv:1608.08021
- OverFeat,纽约大学 [论文]
- OverFeat:使用卷积网络的集成识别、定位和检测,ICLR,2014 年.
- Ross Girshick、Jeff Donahue、Trevor Darrell、Jitendra Malik,Rich feature hierarchies for accurate object detection and semantic segmentation,CVPR,2014.
- SPP,微软研究院 [论文]
- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition, ECCV, 2014.
- Fast R-CNN,微软研究院[论文]
- Ross Girshick,Fast R-CNN,arXiv:1504.08083.
- Faster R-CNN,微软研究院[论文]
- Shaoqing Ren、Kaiming He、Ross Girshick、Jian Sun,Faster R-CNN:使用区域提议网络实现实时目标检测,arXiv:1506.01497.
- R-CNN minus R, Oxford [论文]
- Karel Lenc、Andrea Vedaldi、R-CNN 减去 R、arXiv:1506.06981.
- 拥挤场景中的端到端人员检测[论文]
- Russell Stewart、Mykhaylo Andriluka,拥挤场景中的端到端人员检测,arXiv:1506.04878.
- 你只看一次:统一的实时对象检测[论文],[论文版本 2], [C 代码], [Tensorflow 代码]
- Joseph Redmon、Santosh Divvala、Ross Girshick、Ali Farhadi,你只看一次:统一的实时对象检测,arXiv:1506.02640
- 约瑟夫·雷德蒙、阿里·法哈迪(第 2 版)
- 内外网 [论文]
- Sean Bell、C. Lawrence Zitnick、Kavita Bala、Ross Girshick,Inside-Outside Net:使用 Skip Pooling 和递归神经网络检测上下文中的对象
- 深度残差网络(当前最先进的技术)[论文]
- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognition
- 多倍多实例学习的弱监督目标定位 [Paper]
- R-FCN [论文] [代码]
- Jifeng Dai, Yi Li, Kaiming He, Jian Sun, R-FCN: Object Detection via Region-based Fully Convolutional Networks
- SSD [论文] [代码]
- Wei Liu1, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, SSD: Single Shot MultiBox Detector, arXiv:1512.02325
- 现代卷积对象检测器的速度/精度权衡 [论文]
- Jonathan Huang, Vivek Rathod, Chen Sun, Menglong Zhu, Anoop Korattikara, Alireza Fathi, Ian Fischer, Zbigniew Wojna, Yang Song, Sergio Guadarrama, Kevin Murphy, Google Research, arXiv:1611.10012
Video Classification¶
- Nicolas Ballas、Li Yao、Pal Chris、Aaron Courville,“深入研究用于学习视频表示的卷积网络”,ICLR 2016. [Paper]
- Michael Mathieu、camille couprie、Yann Lecun,“超越均方误差的深度多尺度视频预测”,ICLR 2016. [Paper]
Object Tracking¶
- Seunghoon Hong、Tackgeun You、Suha Kwak、Bohyung Han,通过使用卷积神经网络学习判别显着图进行在线跟踪,arXiv:1502.06796. [论文]
- Hanxi Li、Yi Li 和 Fatih Porikli,DeepTrack:通过用于视觉跟踪的卷积神经网络学习判别特征表示,BMVC,2014 年.[论文]
- N Wang、DY Yeung,学习用于视觉跟踪的深度压缩图像表示,NIPS,2013.[论文]
- Lijun Wang, Wanli Ouyang, Xiaogang Wang, and Huchuan Lu, Visual Tracking with fully Convolutional Networks, ICCV 2015 [Paper] [Code]
- Hyeonseob Namand Bohyung Han,学习用于视觉跟踪的多域卷积神经网络, [Paper] [Code] [Project Page]
Low-Level Vision¶
Super-Resolution¶
- 迭代图像重建
- Sven Behnke:学习迭代图像重建. IJCAI, 2001. [论文]
- Sven Behnke:在神经抽象金字塔中学习迭代图像重建. 国际计算智能与应用杂志,第一卷. 1,没有. 4, pp. 427-438, 2001. [论文]
- 超分辨率 (SRCNN) [Web] [Paper-ECCV14] [Paper-arXiv15]
- Chao Dong、Chen Chang Loy、Kaiming He、Xiaoou Tang,学习用于图像超分辨率的深度卷积网络,ECCV,2014.
- Chao Dong, Chen Change Loy, Kaiming He, Xiaoou Tang, Image Super-Resolution Using Deep Convolutional Networks, arXiv:1501.00092.
- 非常深的超分辨率
- Jiwon Kim、Jung Kwon Lee、Kyoung Mu Lee,使用超深卷积网络实现精确图像超分辨率,arXiv:1511.04587,2015 年.[论文]
- 深度递归卷积网络
- Jiwon Kim、Jung Kwon Lee、Kyoung Mu Lee,用于图像超分辨率的深度递归卷积网络,arXiv:1511.04491,2015 年.[论文]
- Casade-稀疏编码网络
- Zhaowen Wang、Ding Liu、Wei Han、Jianchao Yang 和 Thomas S. Huang,具有稀疏先验的图像超分辨率深度网络. ICCV, 2015. [论文] [代码]
- 超分辨率的感知损失
- Justin Johnson、Alexandre Alahi、Li Fei-Fei,实时风格迁移和超分辨率的感知损失,arXiv:1603.08155,2016 年.[论文] [补充]
- SRGAN
- Christian Ledig、Lucas Theis、Ferenc Huszar、Jose Caballero、Andrew Cunningham、Alejandro Acosta、Andrew Aitken、Alykhan Tejani、Johannes Totz、Zehan Wang、Wenzhe Shi,使用生成对抗网络的逼真单图像超分辨率,arXiv: 1609.04802v3, 2016. [论文]
- 其他
- Osendorfer、Christian、Hubert Soyer 和 Patrick van der Smagt,具有快速近似卷积稀疏编码的图像超分辨率,ICONIP,2014.[Paper ICONIP-2014]
Other Applications¶
- 光流 (FlowNet) [论文]
- Philipp Fischer, Alexey Dosovitskiy, Eddy Ilg, Philip Häusser, Caner Hazırbaş, Vladimir Golkov, Patrick van der Smagt, Daniel Cremers, Thomas Brox, FlowNet: Learning Optical Flow with Convolutional Networks, arXiv:1504.06852. *压缩伪影减少[Paper-arXiv15]
- Chao Dong、Yubin Deng、Chen Change Loy、Xiaoou Tang,深度卷积网络减少压缩伪影,arXiv:1504.06993.
- 模糊去除
- Christian J. Schuler、Michael Hirsch、Stefan Harmeling、Bernhard Schölkopf,Learning to Deblur,arXiv:1406.7444 [论文]
- Jian Sun, Wenfei Cao, Zongben Xu, Jean Ponce, Learning a Convolutional Neural Network for Non-uniform Motion Blur Removal, CVPR, 2015 [论文]
- 图像反卷积 [Web] [Paper]
- Li Xu, Jimmy SJ. Ren, Ce Liu, Jiaya Jia, Deep Convolutional Neural Network for Image Deconvolution, NIPS, 2014.
- Deep Edge-Aware Filter [论文]
- Li Xu, Jimmy SJ. Ren, Qiong Yan, Renjie Liao, Jiaya Jia, Deep Edge-Aware Filters, ICML, 2015.
- Jure Žbontar、Yann LeCun,使用卷积神经网络计算立体匹配成本,CVPR,2015 年.
- 彩色图像着色 Richard Zhang、Phillip Isola、Alexei A. Efros,ECCV,2016 [论文],[代码]
- Ryan Dahl,[博客]
- 通过修复进行特征学习[论文][代码]
- Deepak Pathak、Philipp Krahenbuhl、Jeff Donahue、Trevor Darrell、Alexei A. Efros,上下文编码器:通过修复进行特征学习,CVPR,2016
Edge Detection¶
(来自 Gedas Bertasius、Jianbo Shi、Lorenzo Torresani,DeepEdge:用于自上而下轮廓检测的多尺度分叉深度网络,CVPR,2015 年.)
- 整体嵌套边缘检测 [论文] [代码]
- Saining Xie、Zhuowen Tu,整体嵌套边缘检测,arXiv:1504.06375.
- DeepEdge [论文]
- Gedas Bertasius、Jianbo Shi、Lorenzo Torresani,DeepEdge:用于自上而下轮廓检测的多尺度分叉深度网络,CVPR,2015 年.
- DeepContour [论文]
- Wei Shen, Xinggang Wang, Yan Wang, Xiang Bai, Zhijiang Zhang, DeepContour: A Deep Convolutional Feature Learned by Positive-Sharing Loss for Contour Detection, CVPR, 2015.
Semantic Segmentation¶
(来自 Jifeng Dai、Kaiming He、Jian Sun,BoxSup:利用边界框监督卷积网络进行语义分割,arXiv:1503.01640.) * PASCAL VOC2012 挑战排行榜(2016 年 9 月 1 日) (来自 PASCAL VOC2012 leaderboards) * SEC:种子、扩展和约束 * Alexander Kolesnikov、Christoph Lampert,种子、扩展和约束:弱监督图像分割的三个原则,ECCV,2016.[论文] [代码] * Adelaide * Guosheng Lin、Chunhua Shen、Ian Reid、Anton van dan Hengel,用于语义分割的深度结构化模型的高效分段训练,arXiv:1504.01013. [论文](VOC2012排名第一) * Guosheng Lin、Chunhua Shen、Ian Reid、Anton van den Hengel,深度学习消息传递推理中的消息,arXiv:1508.02108. [论文](VOC2012排名第4) * 深度解析网络(DPN) * Ziwei Liu、Xiaoxiao Li、Ping Luo、Chen Change Loy、Xiaoou Tang,通过深度解析网络进行语义图像分割,arXiv:1509.02634 / ICCV 2015 [论文] (VOC 2012排名第2) * CentraleSuperBoundaries,INRIA [论文] * Iasonas Kokkinos,使用深度学习在边界检测中超越人类,arXiv:1411.07386(VOC 2012 排名第 4) * BoxSup [论文] * Jifeng Dai、Kaiming He、Jian Sun、BoxSup:利用边界框监督卷积网络进行语义分割,arXiv:1503.01640. (VOC2012排名第6) * 态度 * Hyeonwoo Noh、Seunghoon Hong、Bohyung Han,用于语义分割的学习反卷积网络,arXiv:1505.04366. [论文](VOC2012排名第7) * Seunghoon Hong、Hyeonwoo Noh、Bohyung Han,用于半监督语义分割的解耦深度神经网络,arXiv:1506.04924. [论文] * Seunghoon Hong、Junhyuk Oh、Bohyung Han 和 Honglak Lee,使用深度卷积神经网络学习语义分割的可迁移知识,arXiv:1512.07928 [Paper] [Project Page] * 作为循环神经网络的条件随机场 [论文] * Shuai Zheng、Sadeep Jayasumana、Bernardino Romera-Paredes、Vibhav Vineet、Zhizhong Su、Dalong Du、Chang Huang、Philip HS Torr,作为循环神经网络的条件随机场,arXiv:1502.03240. (VOC2012排名第8) * 深度实验室 * Liang-Chieh Chen、George Papandreou、Kevin Murphy、Alan L. Yuille,用于语义图像分割的 DCNN 的弱监督和半监督学习,arXiv:1502.02734. [论文](VOC2012排名第9) * Mohammadreza Mostajabi、Payman Yadollahpour、Gregory Shakhnarovich,具有缩小功能的前馈语义分割,CVPR,2015 * 联合校准 [论文] * Holger Caesar、Jasper Uijlings、Vittorio Ferrari,语义分割的联合校准,arXiv:1507.01581. * Jonathan Long、Evan Shelhamer、Trevor Darrell,用于语义分割的完全卷积网络,CVPR,2015 年. * Bharath Hariharan、Pablo Arbelaez、Ross Girshick、Jitendra Malik,用于对象分割和细粒度本地化的超列,CVPR,2015 年. * 深度层次解析 * Abhishek Sharma、Oncel Tuzel、David W. Jacobs,语义分割的深度层次解析,CVPR,2015 年.[论文] * 学习场景标签的分层特征 [Paper-ICML12] [Paper-PAMI13] * Clement Farabet、Camille Couprie、Laurent Najman、Yann LeCun,场景解析与多尺度特征学习、纯度树和最佳覆盖,ICML,2012 年. * Clement Farabet、Camille Couprie、Laurent Najman、Yann LeCun,Learning Hierarchical Features for Scene Labeling,PAMI,2013. * 剑桥大学 [Web] * Vijay Badrinarayanan、Alex Kendall 和 Roberto Cipolla “SegNet:一种用于图像分割的深度卷积编码器-解码器架构.” arXiv 预印本 arXiv:1511.00561, 2015. [论文] * Alex Kendall、Vijay Badrinarayanan 和 Roberto Cipolla “贝叶斯 SegNet:用于场景理解的深度卷积编码器-解码器架构中的模型不确定性.” arXiv 预印本 arXiv:1511.02680, 2015. [论文] * Princeton * Fisher Yu,Vladlen Koltun,“通过扩张卷积进行多尺度上下文聚合”,ICLR 2016, [Paper] *大学. 华盛顿的 Allen AI * Hamid Izadinia、Fereshteh Sadeghi、Santosh Kumar Divvala、Yejin Choi、Ali Farhadi,“用于语义分割、视觉蕴含和释义的句段短语表”,ICCV,2015 年, [Paper] * 因里亚 * Iasonas Kokkinos,“使用深度学习突破边界检测的边界”,ICLR 2016, [Paper] * 加州大学圣地亚哥分校 * Niloufar Pourian、S. Karthikeyan 和 BS Manjunath,“通过图像部分学习社区进行基于弱监督图的语义分割”,ICCV,2015 年, [Paper]
Visual Attention and Saliency¶
(from Nian Liu, Junwei Han, Dingwen Zhang, Shifeng Wen, Tianming Liu, Predicting Eye Fixations using Convolutional Neural Networks, CVPR, 2015.)
- Nian Liu, Junwei Han, Dingwen Zhang, Shifeng Wen, Tianming Liu, Predicting Eye Fixations using Convolutional Neural Networks, CVPR, 2015.
- Saurabh Singh、Derek Hoiem、David Forsyth,Learning a Sequential Search for Landmarks,CVPR,2015 年.
- 具有视觉注意的多目标识别 [论文]
- Jimmy Leiba、Volodymyr Two、Koray Kavukcuoglu,具有视觉注意的多对象识别,ICLR,
- 视觉注意力的循环模型 [论文]
- Volodymyr Mnih、Nicolas Heess、Alex Graves、Koray Kavukcuoglu,视觉注意力的循环模型,NIPS,2014 年.
Object Recognition¶
- Maxime Oquab、Leon Bottou、Ivan Laptev、Josef Sivic,对象定位是免费的吗? – 使用卷积神经网络进行弱监督学习,CVPR,2015 年.
- Mircea Cimpoi、Subhransu Maji、Andrea Vedaldi,用于纹理识别和分割的深度滤波器组,CVPR,2015 年.
Human Pose Estimation¶
- Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh, Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields, CVPR, 2017.
- Leonid Pishchulin、Eldar Insafutdinov、Siyu Tang、Bjoern Andres、Mykhaylo Andriluka、Peter Gehler 和 Bernt Schiele,Deepcut:多人姿势估计的联合子集划分和标记,CVPR,
- Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh, Convolutional pose machines, CVPR, 2016.
- Alejandro Newell、Kaiyu Yang 和 Jia Deng,用于人体姿势估计的堆叠沙漏网络,ECCV,2016 年.
- Tomas Pfister、James Charles 和 Andrew Zisserman,用于视频中人体姿势估计的流动卷积神经网络,ICCV,2015 年.
- Jonathan J. Tompson、Arjun Jain、Yann LeCun、Christoph Bregler,卷积网络联合训练和人体姿态估计图形模型,NIPS,2014 年.
Understanding CNN¶
(来自 Aravindh Mahendran、Andrea Vedaldi,通过反转它们来理解深度图像表示,CVPR,2015 年.)
- Bolei Zhou、Aditya Khosla、Agata Lapedriza、Aude Oliva、Antonio Torralba,深度场景 CNN 中出现的物体检测器,ICLR,2015 年.
- Alexey Dosovitskiy、Thomas Brox,使用卷积网络反转视觉表示,arXiv,2015 年.[论文]
- Matthrew Zeiler、Rob Fergus,可视化和理解卷积网络,ECCV,2014 年.[论文]
Image and Language¶
Image Captioning¶
(来自 Andrej Karpathy、Li Fei-Fei,Deep Visual-Semantic Alignments for Generating Image Description,CVPR,2015 年.)
- UCLA / 百度[论文]
- Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille, Explain Images with Multimodal Recurrent Neural Networks, arXiv:1410.1090.
- Toronto [Paper]
- Ryan Kiros、Ruslan Salakhutdinov、Richard S. Zemel,使用多模态神经语言模型统一视觉语义嵌入,arXiv:1411.2539.
- 伯克利 [论文]
- Jeff Donahue、Lisa Anne Hendricks、Sergio Guadarrama、Marcus Rohrbach、Subhashini Venugopalan、Kate Saenko、Trevor Darrell,用于视觉识别和描述的长期循环卷积网络,arXiv:1411.4389.
- 谷歌[论文]
- Oriol Vinyals、Alexander Toshev、Samy Bengio、Dumitru Erhan,展示和讲述:神经图像字幕生成器,arXiv:1411.4555.
- 斯坦福 [Web] [论文]
- Andrej Karpathy、Li Fei-Fei,用于生成图像描述的深度视觉语义对齐,CVPR,2015 年.
- UML / UT [论文]
- Subhashini Venugopalan、Huijuan Xu、Jeff Donahue、Marcus Rohrbach、Raymond Mooney、Kate Saenko,使用深度递归神经网络将视频翻译成自然语言,NAACL-HLT,2015 年.
- CMU / 微软 [Paper-arXiv] [Paper-CVPR]
- Xinlei Chen,C. Lawrence Zitnick,学习图像标题生成的循环视觉表示,arXiv:1411.5654.
- Xinlei Chen, C. Lawrence Zitnick, Mind's Eye: A Recurrent Visual Representation for Image Caption Generation, CVPR 2015
- 微软 [论文]
- Hao Fang、Saurabh Gupta、Forrest Iandola、Rupesh Srivastava、Li Deng、Piotr Dollár、Jianfeng Gao、Xiaodong He、Margaret Mitchell、John C. Platt、C. Lawrence Zitnick、Geoffrey Zweig,从字幕到视觉概念及背面,CVPR , 2015. *大学. 蒙特利尔/大学. 多伦多 [Web] [Paper]
- Kelvin Xu、Jimmy Lei Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville、Ruslan Salakhutdinov、Richard S. Zemel、Yoshua Bengio,Show、Attend 和 Tell:具有视觉注意力的神经图像字幕生成,arXiv:1502.03044 / ICML 2015
- Idiap / EPFL / Facebook [Paper]
- Remi Lebret、Peter O. Pinheiro、Ronan Collobert,基于短语的图像说明,arXiv:1502.03671/ICML2015 *加州大学洛杉矶分校/百度 [Paper]
- Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan L. Yuille, Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images, arXiv:1504.06692
- 硕士 + 伯克利
- Jacob Devlin、Saurabh Gupta、Ross Girshick、Margaret Mitchell、C. Lawrence Zitnick,Exploring Nearest Neighbor Approaches for Image Captioning,arXiv:1505.04467 [Paper]
- Jacob Devlin、Hao Cheng、Hao Fang、Saurabh Gupta、Li Deng、Xiaodong He、Geoffrey Zweig、Margaret Mitchell,图像字幕的语言模型:怪癖和有效方法,arXiv:1505.01809 [Paper]
- Adelaide [Paper]
- Qi Wu, Chunhua Shen, Anton van den Hengel, Lingqiao Liu, Anthony Dick, Image Captioning with an Intermediate Attributes Layer, arXiv:1506.01144 *蒂尔堡 [Paper]
- Grzegorz Chrupala, Akos Kadar, Afra Alishahi, Learning language through pictures, arXiv:1506.03694 *大学. 蒙特利尔 [Paper]
- Kyunghyun Cho、Aaron Courville、Yoshua Bengio,使用基于注意力的编码器-解码器网络描述多媒体内容,arXiv:1507.01053
- 康奈尔 [Paper]
- Jack Hessel、Nicolas Savva、Michael J. Wilber,神经图像字幕中的图像表示和新领域,arXiv:1508.02091
- Ting Yao、Tao Mei 和 Chong-Wah Ngo,“Learning Query and Image Similarities with Ranking Canonical Correlation Analysis”, ICCV, 2015
Video Captioning¶
- 伯克利 [Web] [论文]
- Jeff Donahue、Lisa Anne Hendricks、Sergio Guadarrama、Marcus Rohrbach、Subhashini Venugopalan、Kate Saenko、Trevor Darrell,用于视觉识别和描述的长期循环卷积网络,CVPR,2015 年.
- UT / UML / Berkeley [论文]
- Subhashini Venugopalan、Huijuan Xu、Jeff Donahue、Marcus Rohrbach、Raymond Mooney、Kate Saenko,使用深度递归神经网络将视频翻译成自然语言,arXiv:1412.4729.
- 微软 [论文]
- Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li, Yong Rui, Joint Modeling Embedding and Translation to Bridge Video and Language, arXiv:1505.01861.
- UT / Berkeley / UML [论文]
- Subhashini Venugopalan、Marcus Rohrbach、Jeff Donahue、Raymond Mooney、Trevor Darrell、Kate Saenko,序列到序列——视频到文本,arXiv:1505.00487. *大学. 蒙特利尔/大学. 舍布鲁克 [Paper]
- Li Yao、Atousa Torabi、Kyunghyun Cho、Nicolas Ballas、Christopher Pal、Hugo Larochelle、Aaron Courville,利用时间结构描述视频,arXiv:1502.08029
- MPI /伯克利 [Paper]
- Anna Rohrbach、Marcus Rohrbach、Bernt Schiele,电影描述的长短篇小说,arXiv:1506.01698 *大学. 多伦多/麻省理工学院 [Paper]
- Yukun Zhu、Ryan Kiros、Richard Zemel、Ruslan Salakhutdinov、Raquel Urtasun、Antonio Torralba、Sanja Fidler,对齐书籍和电影:通过看电影和阅读书籍实现故事般的视觉解释,arXiv:1506.06724 *大学. 蒙特利尔 [Paper]
- Kyunghyun Cho、Aaron Courville、Yoshua Bengio,使用基于注意力的编码器-解码器网络描述多媒体内容,arXiv:1507.01053
- 陶业大学/南加州大学 [paper]
- Dotan Kaufman、Gil Levi、Tal Hassner、Lior Wolf,视频注释和摘要的时间镶嵌,arXiv:1612.06950.
Question Answering¶
(来自 Stanislaw Antol、Aishwarya Agrawal、Jiasen Lu、Margaret Mitchell、Dhruv Batra、C. Lawrence Zitnick、Devi Parikh,VQA:视觉问答,CVPR,2015 SUNw:场景理解研讨会)
- 弗吉尼亚理工大学 / MSR [Web] [论文]
- Stanislaw Antol、Aishwarya Agrawal、Jiasen Lu、Margaret Mitchell、Dhruv Batra、C. Lawrence Zitnick、Devi Parikh、VQA:视觉问答、CVPR、2015 SUNw:场景理解研讨会.
- MPI / Berkeley [Web] [论文]
- Mateusz Malinowski、Marcus Rohrbach、Mario Fritz,问你的神经元:一种基于神经的方法来回答有关图像的问题,arXiv:1505.01121.
- 多伦多 [论文] [数据集]
- Mengye Ren、Ryan Kiros、Richard Zemel,图像问答:视觉语义嵌入模型和新数据集,arXiv:1505.02074 / ICML 2015 深度学习研讨会.
- 百度/加州大学洛杉矶分校 [论文] [数据集]
- Hauyuan Gao, Junhua Mao, Jie Zhou, Zhiheng Huang, Lei Wang, Wei Xu, Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering, arXiv:1505.05612.
- 态度 [Paper] [Project Page]
- Hyeonwoo Noh、Paul Hongsuck Seo 和 Bohyung Han,使用具有动态参数预测的卷积神经网络进行图像问答,arXiv:1511.05765
- 卡内基梅隆大学 / 微软研究院 [Paper]
- Yang, Z.、He, X.、Gao, J.、Deng, L. 和 Smola, A.(2015 年). 用于图像问答的堆叠注意网络. arXiv:1511.02274. *元思维 [Paper]
- Xiong, Caiming, Stephen Merity, and Richard Socher. "Dynamic Memory Networks for Visual and Textual Question Answering." arXiv:1603.01417 (2016).
- 转向 + 集线器 [Paper]
- Jin-Hwa Kim、Sang-Woo Lee、Dong-Hyun Kwak、Min-Oh Heo、Jeonghee Kim、Jung-Woo Ha、Byoung-Tak Zhang,视觉 QA 的多模式残差学习,arXiv:1606:01455
- 加州大学伯克利分校 + 索尼 [Paper]
- Akira Fukui、Dong Huk Park、Daylen Yang、Anna Rohrbach、Trevor Darrell 和 Marcus Rohrbach,用于视觉问答和视觉基础的多模式紧凑双线性池,arXiv:1606.01847
- 邮政科技 [Paper]
- Hyeonwoo Noh 和 Bohyung Han,使用 VQA 的联合损失最小化训练循环应答单元,arXiv:1606.03647
- 转向 + 集线器 [Paper]
- Jin-Hwa Kim、Kyoung Woon On、Jeonghee Kim、Jung-Woo Ha、Byoung-Tak Zhang,低秩双线性池化的 Hadamard 积,arXiv:1610.04325.
Image Generation¶
- 卷积/循环网络
- Aäron van den Oord、Nal Kalchbrenner、Oriol Vinyals、Lasse Espeholt、Alex Graves、Koray Kavukcuoglu. “使用 PixelCNN 解码器生成条件图像”[论文][代码]
- Alexey Dosovitskiy、Jost Tobias Springenberg、Thomas Brox,“学习使用卷积神经网络生成椅子”,CVPR,2015 年.[论文]
- Karol Gregor、Ivo Danihelka、Alex Graves、Danilo Jimenez Rezende、Daan Wierstra,“DRAW:用于图像生成的递归神经网络”,ICML,2015 年. [Paper]
- 对抗网络
- Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David Warde-Farley、Sherjil Ozair、Aaron Courville、Yoshua Bengio,生成对抗网络,NIPS,2014 年.[论文]
- Emily Denton、Soumith Chintala、Arthur Szlam、Rob Fergus,Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks,NIPS,2015.[论文]
- Lucas Theis、Aäron van den Oord、Matthias Bethge,“关于生成模型评估的说明”,ICLR 2016. [Paper]
- Zhenwen Dai、Andreas Damianou、Javier Gonzalez、Neil Lawrence,“变分自动编码深度高斯过程”,ICLR 2016. [Paper]
- Elman Mansimov、Emilio Parisotto、Jimmy Ba、Ruslan Salakhutdinov,“使用注意力从字幕生成图像”,ICLR 2016, [Paper]
- Jost Tobias Springenberg,“使用分类生成对抗网络进行无监督和半监督学习”,ICLR 2016, [Paper]
- Harrison Edwards、Amos Storkey,“与对手的审查陈述”,ICLR 2016, [Paper]
- Takeru Miyato、Shin-ichi Maeda、Masanori Koyama、Ken Nakae、Shin Ishii,“虚拟对抗训练的分布平滑”,ICLR 2016, [Paper]
- Jun-Yan Zhu、Philipp Krahenbuhl、Eli Shechtman 和 Alexei A. Efros,“自然图像流形上的生成视觉操作”,ECCV [Paper] [Code] [Video]
- 混合卷积网络和对抗网络
- Alec Radford、Luke Metz、Soumith Chintala,“使用深度卷积生成对抗网络进行无监督表示学习”,ICLR 2016. [Paper]
Other Topics¶
*视觉类比 [Paper] * Scott Reed、Yi Zhang、Yuting Zhang、Honglak Lee,Deep Visual Analogy Making,NIPS,2015 * Xiaolong Wang、David F. Fouhey、Abhinav Gupta,设计用于表面法线估计的深度网络,CVPR,2015 年. * Georgia Gkioxari、Jitendra Malik,Finding Action Tubes,CVPR,2015 年. * Cong Zhang, Hongsheng Li, Xiaogang Wang, Xiaokang Yang, Cross-scene Crowd Counting via Deep Convolutional Neural Networks, CVPR, 2015. * Fang Wang、Le Kang、Yi Li,使用卷积神经网络进行基于草图的 3D 形状检索,CVPR,2015 年. * 弱监督分类 * Samaneh Azadi、Jiashi Feng、Stefanie Jegelka、Trevor Darrell,“带有噪声标签的深度 CNN 的辅助图像正则化”,ICLR 2016, [Paper] * 艺术风格 [论文] [代码] * Leon A. Gatys、Alexander S. Ecker、Matthias Bethge,艺术风格的神经算法. * 人类注视估计 * Xucong Zhang、Yusuke Sugano、Mario Fritz、Andreas Bulling,野外基于外观的注视估计,CVPR,2015 年.[论文] [网站] * 人脸识别 * Yaniv Taigman、Ming Yang、Marc'Aurelio Ranzato、Lior Wolf、DeepFace:缩小人脸验证中与人类水平性能的差距,CVPR,2014 年.[论文] * Yi Sun, Ding Liang, Xiaogang Wang, Xiaoou Tang, DeepID3: Face Recognition with Very Deep Neural Networks, 2015. [论文] * Florian Schroff、Dmitry Kalenichenko、James Philbin,FaceNet:人脸识别和聚类的统一嵌入,CVPR,2015 年.[论文] * 面部地标检测 * Yue Wu、Tal Hassner、KangGeon Kim、Gerard Medioni、Prem Natarajan,使用调整后的卷积神经网络进行面部标志检测,2015 年.[论文] [[项目]] (http://www.openu.ac.il/home/hassner/projects/tcnn_landmarks/)
Courses¶
- 深度视觉
- [斯坦福] CS231n: Convolutional Neural Networks for Visual Recognition
- [CUHK] ELEG 5040: Advanced Topics in Signal Processing(Introduction to Deep Learning)
- 更多深度学习
- [斯坦福] CS224d: Deep Learning for Natural Language Processing
- [牛津] Deep Learning by Prof. Nando de Freitas
- [纽约大学] Deep Learning by Prof. Yann LeCun
Books¶
- 免费在线书籍
- Deep Learning by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
- Neural Networks and Deep Learning by Michael Nielsen
- Deep Learning Tutorial by LISA lab, University of Montreal
Videos¶
- 会谈
- Deep Learning, Self-Taught Learning and Unsupervised Feature Learning By Andrew Ng
- Recent Developments in Deep Learning By Geoff Hinton
- The Unreasonable Effectiveness of Deep Learning by Yann LeCun
- Deep Learning of Representations by Yoshua bengio
Software¶
Framework¶
- Tensorflow:谷歌使用数据流图进行数值计算的开源软件库 [Web]
- Torch7:Lua 中的深度学习库,被 Facebook 和 Google Deepmind 使用 [Web]
- 基于 Torch 的深度学习库: [torchnet],
- Caffe:BVLC 的深度学习框架 [Web]
- Theano:Python 中的数学库,由 LISA 实验室维护 [Web]
- 基于 Theano 的深度学习库: [Pylearn2], [Blocks], [Keras], [Lasagne]
- MatConvNet:用于 MATLAB 的 CNN [Web]
- MXNet:一个灵活高效的异构分布式系统深度学习库,支持多语言 [Web]
- Deepgaze:基于CNNs的人机交互计算机视觉库 [Web]
Applications¶
- 对抗训练
- 论文“生成对抗网络”[Web] 的代码和超参数
- 理解和可视化 *“通过反转理解深度图像表示”的源代码,CVPR,2015 年.[Web]
- 语义分割
- 论文“Rich feature hierarchies for accurate object detection and semantic segmentation”的源代码,CVPR,2014.[Web]
- 论文“Fully Convolutional Networks for Semantic Segmentation”的源代码,CVPR,2015 年.[Web]
- 超分辨率
- 动漫风格的图像超分辨率 [Web]
- 边缘检测
- 论文“DeepContour:通过轮廓检测的正共享损失学习的深度卷积特征”的源代码,CVPR,2015 年.[Web]
- 论文“整体嵌套边缘检测”的源代码,ICCV 2015.[Web]
Tutorials¶
- [CVPR 2014] Tutorial on Deep Learning in Computer Vision
- [CVPR 2015] Applied Deep Learning for Computer Vision with Torch