㈠ Fashion-MNIST:替代MNIST手寫數字集的圖像數據集
Fashion-MNIST是替代經典MNIST手寫數字集的一個圖像數據集,由Zalando公司提供,包含10種類別的共7萬個不同商品的正面圖片。它的大小、格式和訓練集/測試集劃分與原始的MNIST完全一致,即60000/10000的訓練測試數據劃分,28x28的灰度圖片。它可以直接用於測試機器學習和深度學習演算法的性能,無需改動代碼。
為什麼要做Fashion-MNIST?經典MNIST數據集包含了大量手寫數字,成為了機器學習、機器視覺、人工智慧、深度學習領域研究者的基準之一。Fashion-MNIST作為直接替代品,目的在於無需修改代碼即可使用。它的圖片大小、訓練、測試樣本數及類別數與經典MNIST完全相同。
獲取Fashion-MNIST數據集的鏈接如下:
或者直接從代碼庫中下載,數據集位於"data/fashion"目錄下。代碼庫中還包含了一些用於評測和可視化的腳本。
每個訓練和測試樣本按照以下類別進行了標註:
如何載入數據?可以使用Python(需要安裝numpy)、Tensorflow或其他語言進行操作。經典機器學習模型的評測可以通過scikit-learn實現,並在Fashion-MNIST和經典MNIST上進行可視化。在論文中引用Fashion-MNIST時,請引用以下論文:
Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv: TBA
論文將在Mon, 28 Aug 2017 00:00:00 GMT在arXiv上發表。