㈠ Fashion-MNIST:替代MNIST手写数字集的图像数据集
Fashion-MNIST是替代经典MNIST手写数字集的一个图像数据集,由Zalando公司提供,包含10种类别的共7万个不同商品的正面图片。它的大小、格式和训练集/测试集划分与原始的MNIST完全一致,即60000/10000的训练测试数据划分,28x28的灰度图片。它可以直接用于测试机器学习和深度学习算法的性能,无需改动代码。
为什么要做Fashion-MNIST?经典MNIST数据集包含了大量手写数字,成为了机器学习、机器视觉、人工智能、深度学习领域研究者的基准之一。Fashion-MNIST作为直接替代品,目的在于无需修改代码即可使用。它的图片大小、训练、测试样本数及类别数与经典MNIST完全相同。
获取Fashion-MNIST数据集的链接如下:
或者直接从代码库中下载,数据集位于"data/fashion"目录下。代码库中还包含了一些用于评测和可视化的脚本。
每个训练和测试样本按照以下类别进行了标注:
如何载入数据?可以使用Python(需要安装numpy)、Tensorflow或其他语言进行操作。经典机器学习模型的评测可以通过scikit-learn实现,并在Fashion-MNIST和经典MNIST上进行可视化。在论文中引用Fashion-MNIST时,请引用以下论文:
Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv: TBA
论文将在Mon, 28 Aug 2017 00:00:00 GMT在arXiv上发表。