導航:首頁 > 數據處理 > 如何製作數據集

如何製作數據集

發布時間：2022-02-27 12:17:01

1. 如何製作像mnist，CIFAR-10格式的數據集

MNIST 數據集
混合的國家標准和技術 (簡稱 MNIST) 由紅外研究員，作為基準來比較不同的紅外演算法創建數據集。其基本思想是如果你有你想要測試紅外的演算法或軟體的系統，可以運行您的演算法或系統針對 MNIST 的數據集和比較您的結果與其他系統以前發布成果。
數據集包含的共 70,000 圖像； 60,000 訓練圖像（用於創建紅外模型）和 10,000 測試圖像（用於評估模型的精度）。每個 MNIST 圖像是一個單一的手寫的數字字元的數字化的圖片。每個圖像是 28 x 28 像素大小。每個像素值是 0，表示白色，至 255，表示黑。中間像素值表示的灰度級。圖 2 顯示了訓練集的前八位的圖像。對應於每個圖像的實際數字是顯然對人，但確定數字是非常困難的挑戰的計算機。

圖 2 首八 MNIST 訓練圖像
奇怪的是，訓練數據和測試數據均存儲在兩個文件中，而不是在單個文件中。其中一個文件包含圖像的像素值和，另一個包含圖像的標簽信息（0 到 9）。每個的四個文件還包含標頭信息，和所有的四個文件都存儲在已經使用 gzip 格式壓縮的二進制格式。
注意在圖 1，該演示程序使用僅 60,000 項目訓練集。測試集的格式是相同的訓練集。 MNIST 文件的主存儲庫是目前位於 yann.lecun.com/exdb/mnist。培訓的像素數據存儲在文件火車-圖像-idx3-ubyte.gz 和培訓標簽數據存儲在文件火車-標簽-idx1-ubyte.gz。若要運行該演示程序，您需要轉到 MNIST 的存儲庫站點，下載並解壓的兩個培訓數據文件。將文件解壓縮，我用的免費的開源 7-Zip 實用程序。
創建 MNIST 查看器
若要創建 MNIST 演示程序，我發起了 Visual Studio，創建一個名為 MnistViewer 的新 C# Windows 窗體項目。演示有沒有重大的.NET 版本依賴關系，因此，任何版本的 Visual Studio 應該工作。
模板代碼載入到 Visual Studio 編輯器後，我設置的 UI 控制項。我添加了兩個 TextBox 控制項 (textBox1，textBox2) 要堅持兩個解壓後的培訓文件的路徑。我添加一個按鈕控制項 (button1)，並給了它一個標簽載入圖像。我添加了兩個多個 TextBox 控制項（textBox3，textBox4）以保存當前圖像索引和下一個圖像索引的值。我使用 Visual Studio 設計器，分別設置"NA"和"0，"這些控制項的初始值。
我添加了一個 ComboBox 控制項 (comboBox1) 的圖像放大倍數值。使用設計器，我去到該控制項的項集合，添加字元串"1"到"10"。我添加了第二個按鈕控制項 (button2)，並給了它一個標簽的顯示下一次。我添加了 PictureBox 控制項 (pictureBox1)，將其背景色屬性設置為 ControlDark，以便看到控制項的輪廓。我將圖片框大小設置為 280 x 280 允許最多 10 倍的放大倍率（回顧 MNIST 圖像是 28 x 28 像素為單位）。我添加了第五個（textBox5）文本框以顯示十六進制值的圖像，然後將其多行屬性設置為 True 和其字體屬性設置為 8.25 磅 Courier New 和擴大其大小到 606 x 412。而且，最後，我添加了一個列表框控制項（listBox1) 的日誌記錄消息。
後放置 UI 控制項拖到 Windows 窗體，添加三個類范圍欄位：
public partial class Form1 : Form
{
private string pixelFile =
@"C:\MnistViewer\train-images.idx3-ubyte";
private string labelFile =
@"C:\MnistViewer\train-labels.idx1-ubyte";
private DigitImage[] trainImages = null;
...

第一次兩個字元串指向解壓後的培訓數據文件的位置。你會需要編輯這些要運行演示的兩個字元串。第三個欄位是一個程序定義 DigitImage 對象的數組。
我編輯窗體的構造函數略成 textBox1 和 textBox2 地點的文件路徑，並給予放大倍數初始值 6：
public Form1()
{
InitializeComponent();
textBox1.Text = pixelFile;
textBox2.Text = labelFile;
comboBox1.SelectedItem = "6";
this.ActiveControl = button1;
}

我用的 ActiveControl 屬性來設置初始焦點到 button1 控制項，只是為了方便。

2. 深度學習的數據集都是怎樣生成的

你好
genet網路的預訓練模型訓練自己的數據集。
Ok首先是自己的數據集了。Matconvnet中訓練imagenet的數據集的准備不像caffe這些工具箱弄得那麼好，弄個train文件夾，test文件夾，以及兩個txt索引就好了，感覺很不人性。後面我將會將其輸入改為這種人性的類型輸入格式。
但是其類別索引是從0開始的，這在matlab中是不符合的，所以我將其改成從1開始的。同時添加了一個類class標簽的txt，改完的
下載完打開這個文件夾看到：

其中train就是訓練所用到的所有圖片，test為測試所有圖片，train_label為對應圖片的名字以及跟隨的類標簽（從1開始），打開txt可以看到為：

這種格式的txt相信應該很容易從你自己的數據集中弄到。依次類推，test.txt中存放的是test文件夾所有圖片的名字以及其類別。
Classind 就是每一類表示的分類的名字。

數據准備好了，放在哪呢？我們在Matconvnet的工具箱目錄下新建一個文件夾為data，然後將這個數據集放進去，如下：

我們是在訓練好的model上繼續訓練，所以需要一個model，再在這文件夾下建立一個models文件夾，然後把imagenet-vgg-f.mat放入到models裡面。這里我們使用的是vgg-f的model，這個model在前兩節說到了，自己去下載。
接著就是網路訓練了。再建立一個文件夾train，可以編寫函數了。
首先是主函數：
這里復制一下examples中的imagenet裡面的一個主函數cnn_dicnn,然後修改一下裡面的路徑,程序為：
滿意請採納

3. 利用spss軟體如何建立數據集，求過程！！！

SPSS是一個統計功能非常完善的軟體

SPSS軟體的特點

一、集數據錄入、資料編輯、數據管理、統計分析、報表製作、圖形繪制為一體。從理論上說，只要計算機硬碟和內存足夠大，SPSS可以處理任意大小的數據文件，無論文件中包含多少個變數，也不論數據中包含多少個案例。

二、統計功能囊括了《教育統計學》中所有的項目，包括常規的集中量數和差異量數、相關分析、回歸分析、方差分析、卡方檢驗、t檢驗和非參數檢驗；也包括近期發展的多元統計技術，如多元回歸分析、聚類分析、判別分析、主成分分析和因子分析等方法，並能在屏幕（或列印機）上顯示（列印）如正態分布圖、直方圖、散點圖等各種統計圖表。從某種意義上講，SPSS軟體還可以幫助數學功底不夠的使用者學習運用現代統計技術。使用者僅需要關心某個問題應該採用何種統計方法，並初步掌握對計算結果的解釋，而不需要了解其具體運算過程，可能在使用手冊的幫助下定量分析數據。

三、自從1995年SPSS公司與微軟公司合作開發SPSS界面後，SPSS界面變得越來越友好，操作也越來越簡單。熟悉微軟公司產品的用戶學起SPSS操作很容易上手。SPSS for Windows界面完全是菜單式，一般稍有統計基礎的人經過三天培訓即可用SPSS做簡單的數據分析，包括繪制圖表、簡單回歸、相關分析等等，關鍵在於如何進行結果分析及解釋，這一方面需要學習一些數理統計的基本知識，另一方面也要多進行實踐，在實踐中了解各種統計結果的實際意義。

希望能幫到你，如果沒問題的話，麻煩採納一下，謝謝你！

4. 怎樣生成數據挖掘的數據集,使用數據集進行關聯規則Apriori演算法，只想要純數據集，我想用VF編程實現挖掘。

當你把整個文件打開的時候說明文件已經被load到內存里了。所以請檢查你的內存是否夠大，或者虛擬內存太小。按理來說T10I4D100K.dat是很小的一個文件，雖然有10W行，但寬度很小啊。建議你把虛擬內存調大一點，關閉其他佔用大量內存的程序，例如IE，等等。再么就是看看你的程序是否設計合理。這點兒數據根本不能算做大數據集。 over!

5. 請問下面的數據集用Python怎麼生成，謝謝！

下面都是散點，每堆點圍繞在一個中心隨機散開，給你個方案，你去網路搜一下 matplotlib 散點圖，然後有個例子是隨機生成點的x和y坐標的，然後改改成你需要的多個堆。

6. 如何根據CIFAR-10的格式製作自己的數據集

主要結構是兩個全控的電壓控制型逆變器或電流控制型逆變器，由於控制演算法以及實現難度的關系，目前電壓控制型逆變器構成的UPFC佔主流。
兩個逆變器分別並、串入系統，從而達到UPFC的各項功能！

7. tensorflow如何製作自己的數據集

Tensorflow提供了很多種Dataset,

從tensor對象創建，從text文件創建，從tfrecord文件創建，從二進制創建，

參考：

飛升之路Tensorflow-創建Dataset

8. fcn中圖像語義分割voc數據集的lmdb數據怎樣製作

有兩種方法：
1）可製作兩個lmdb文件，一個Data項是原始圖像，Label可為0，另一個Data項為分割後的標注圖像，Label為0。使用中caffe是支持多個lmdb輸入的。
2）將原始圖像(如3通道)，標注圖像(1通道)，合在一起成4通道，然後寫在一個lmdb中，然後導入後使用Slice層將其切開。這種方法就不能直接使用現有的convert_imageset來轉換了，可參考其實現自己寫一下。

9. 製作cifar10數據集的python版代碼

閱讀全文

與如何製作數據集相關的資料

熱點內容

青桔單車小程序怎麼使用發布：2025-03-15 04:48:28 瀏覽：491

兩個excel怎麼查重復的數據發布：2025-03-15 04:16:31 瀏覽：279

沒有技術學歷怎麼樣才能賺錢發布：2025-03-15 04:08:28 瀏覽：844

日本交易系統哪個好發布：2025-03-15 04:01:53 瀏覽：463

黃山民宿市場在哪裡發布：2025-03-15 04:01:53 瀏覽：930

電動汽車代理加盟有什麼品牌發布：2025-03-15 04:00:26 瀏覽：967

中高檔二手車交易量如何發布：2025-03-15 03:59:30 瀏覽：412

廣東bim技術需要多少錢發布：2025-03-15 03:44:57 瀏覽：559

微信分享小程序如何設置發布：2025-03-15 03:42:12 瀏覽：886

產品的六個觀點是什麼發布：2025-03-15 03:07:48 瀏覽：152

steam怎麼查看自己交易的價格發布：2025-03-15 03:06:03 瀏覽：731

淘寶信息怎麼刪除了又有發布：2025-03-15 03:05:58 瀏覽：222

如何靠數據說話發布：2025-03-15 03:03:10 瀏覽：492

wx如何移除小程序發布：2025-03-15 03:03:08 瀏覽：219

創造與魔法交易所什麼性價比高發布：2025-03-15 03:03:08 瀏覽：24

外匯交易員怎麼避免猶豫發布：2025-03-15 03:03:07 瀏覽：676

西平服裝市場什麼時候重建發布：2025-03-15 03:00:26 瀏覽：51

大師聯賽開檔後如何調整數據發布：2025-03-15 03:00:23 瀏覽：652

哪個股票交易軟體可以模擬發布：2025-03-15 02:52:53 瀏覽：130

灞橋區老年證丟失怎麼補辦程序發布：2025-03-15 02:51:03 瀏覽：314