测试算法的数据库

出于科研需要,开一个帖子来总结一下自己在阅读文献中遇到过的数据库,也方便之后再使用。


分类+检测数据库

ImageNet

ImageNet,无需多言,上介绍:

What is ImageNet?

ImageNet is an image dataset organized according to the WordNet hierarchy. Each meaningful concept in WordNet, possibly described by multiple words or word phrases, is called a "synonym set" or "synset". There are more than 100,000 synsets in WordNet, majority of them are nouns (80,000+). In ImageNet, we aim to provide on average 1000 images to illustrate each synset. Images of each concept are quality-controlled and human-annotated. In its completion, we hope ImageNet will offer tens of millions of cleanly sorted images for most of the concepts in the WordNet hierarchy.

ImageNet是一个根据WordNet层级组织起来的数据库。每一个在WordNet上有意义的概念,可能是通过一个词,也可能是通过多个词组织起来的。都被称作“同义词组”。在WordNet上大约有100000个同义词组(概念),其中8000多个是名词。在ImageNet上,我们的目标是为每一个概念提供1000个图像。每一个图像都有质量保证和人工标注。在完成后,我们希望能够提供百万级的分类好的图片。

与其相关的竞赛是 ILSVRC


分类数据库

MNIST

MNIST 是大牛Yan LeCun的工作之一,用来识别手写数字。简介:

The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,000 examples. It is a subset of a larger set available from NIST. The digits have been size-normalized and centered in a fixed-size image.

It is a good database for people who want to try learning techniques and pattern recognition methods on real-world data while spending minimal efforts on preprocessing and formatting.

MNIST数据库是手写数字的数据库(人写的数字)。它包括训练集(60000个实例),测试集(10000个实例)。它是NIST数据库的一个子集。这些数字大小相同,而且都位于图像中央。

它可以帮助科研人员测试学习技术和模式识别方法。

CIFAR

CIFAR 是多伦多大学计算机科学系维护的一个数据库,全称是Canadian Institute for Advanced Research,都是分类好的图片,用来测试算法分类的错误率的。既然是多伦多大学的,果然……CIFAR有Hinton大神参与维护。CIFAR又分为CIFAR-10和CIFAR-100,其实就是10个类别和100个类别的区别。

CIFAR-10包括了60000张32x32的彩色图片,共分为10类,每一类6000张图片。总共有50000个训练图像和10000个测试图像。

这个数据库被分为5个训练批次(batch)和1个测试批次,每个批次10000张图片。测试批次准确包括了每个类别各1000张随机选择的图片。训练批次包含了随机选择的剩余的图片,也就是说,某些训练批次可能包含的某一个类别的图片会多一些。总共加起来,这五个训练批次共包含每类5000张图片。

这些分类都是互斥的。没有重叠,比如说有两个类是汽车(automobile)和卡车(truck)。汽车包括轿车,SUV等。卡车只包括大卡车。你要问我皮卡怎么算?答案是两个类里面都没有皮卡。

CIFAR-100差不多,就是类别多了10倍,每一类的图片的数量不同。详细的需要的时候再去看吧。

YFCC100

YFCC100是雅虎的图片/视频分类数据库。


检测数据库

PASCAL VOC 2007/2012

Visual Object Classes Challenge 2012 (VOC 2012) 是牛津大学出品的数据库,用来识别物体。简介:

The main goal of this challenge is to recognize objects from a number of visual object classes in realistic scenes (i.e. not pre-segmented objects). It is fundamentally a supervised learning learning problem in that a training set of labelled images is provided. The twenty object classes that have been selected are:

Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

There are three main object recognition competitions: classification, detection, and segmentation, a competition on action classification, and a competition on large scale recognition run by ImageNet. In addition there is a "taster" competition on person layout.

VOC2012的主要目标是从真实场景中识别物体。它的基本作用是为监督学习问题提供一个训练集。20个物体类别是:

  • 人:人
  • 动物:鸟,毛,牛,狗,马,羊
  • 交通工具: 飞机,自行车,传,公交,轿车,摩托车,火车;
  • 室内物体:瓶子,椅子,餐桌,盆栽植物,沙发,电视/显示器

物体识别主要有三类任务:

  • 分类,检测和分割
  • 动作分类
  • 大尺度识别(by ImageNet)
  • 额外的:人体轮廓

COCO

COCO 是一个新的图像识别,分割,标记数据库。这里面的图像都已经预先分割好了,就看你的算法分割的错误率低不低了。与其相关的竞赛是COCO 2016 Detection and Keypoint Challenges

KITTI

KITTI Vision Benchmark Suite,测试自动驾驶 。这个库里面的图片都是汽车在行驶过程中在Karlruhe这个城市拍摄的街景,都有标签。比较小,只有289张训练图片。

其中一些道路标签包括:Highway, minor road


分割数据库

CityScapes Dataset

CityScapes dataset 目标是城市街景的语义理解(感觉就是城市街景里面的物体识别)。特点:

Type of annotations
  • Semantic
  • Instance-wise
  • Dense pixel annotations
Complexity
  • 30 classes
  • See Class Definitions for a list of all classes and have a look at the applied labeling policy.
Diversity
  • 50 cities
  • Several months (spring, summer, fall)
  • Daytime
  • Good/medium weather conditions
  • Manually selected frames
    • Large number of dynamic objects
    • Varying scene layout
    • Varying background
Volume
  • 5 000 annotated images with fine annotations (examples)
  • 20 000 annotated images with coarse annotations (examples)

比较老的数据库

NORB

THE NORB DATASET


Caltech 101/256

Caltech 101

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,825评论 4 377
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,887评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,425评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,801评论 0 224
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,252评论 3 299
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,089评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,216评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 31,005评论 0 215
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,747评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,883评论 2 255
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,354评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,694评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,406评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,222评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,242评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,017评论 2 281

推荐阅读更多精彩内容

  • 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com...
    SnailTyan阅读 11,908评论 3 13
  • 去年,微软爸爸发布了一款轻量级的代码编辑器…… visual studio code (简称vsc)是我个人最喜欢...
    浮生一城阅读 2,365评论 0 0
  • 寂寞林,似蹙非蹙浅黛青山,似笑非笑含情目 咏絮之才,无人能及 晶莹雪,雍容典雅,鲜艳妩媚,众人皆爱,劝其正道行至,...
    栩辰徉阅读 544评论 3 7
  • 塔吊上,微微颤颤的,不是他,是邻座的我; 2010年第一次坐绿皮火车,杭州到重庆北, 30个小时的硬座 闷热的车厢...
    飞戈菲戈阅读 283评论 1 1
  • “爷爷,爷爷”蜷缩在冰冷的炕上的年轻的小伙子嘴里喃喃的叫着爷爷,似是陷入一场难忘的梦境。 他叫齐大树,是爷爷给起的...
    唐桃桃阅读 417评论 3 6