導航:首頁 > 數據處理 > kettle海量數據怎麼分組

kettle海量數據怎麼分組

發布時間:2023-05-10 09:03:36

❶ kettle從文本文件輸入時怎麼拆分欄位

打開kettle,定義數據源

1
kettle中定義兩個數據源,其中「DS_ERP」是來源資料庫,「DS_ODS」是用於同步的資料庫

END
新建轉換,用於同步某一張表

1
新建一個轉換(執行SQL腳本--->>表輸入--->>表輸出)
執行SQL腳本:刪除DS_ODS庫中已經存在的數據
表輸入:查詢DS_ERP庫中的數據
表輸出:將「表輸入」中的結果輸出到DS_ODS庫中

2
執行SQL腳本:刪除DS_ODS庫中已經存在的數據
${qy_table_name}:這個是參數,指同步的表名

3
表輸入:查詢DS_ERP庫中的數據缺卜襪
${qy_table_name}:這個是參數,指同步的表名

4
表輸出:將「表輸入」中的結果輸出到DS_ODS庫中
${qy_table_name}:這個是參數,指同步的表名

END
新建轉換,用於獲取需要同步的表弊虛名

1
新建一個轉換(文本文件輸入--->>復制結果到記錄)
文本文件輸入:通過讀取指定txt文件,獲取所有要同步的表。(這里也可以通過其他方式獲取,例如通過sql查詢資料庫系統表)

2
指定txt文件路徑

3
定義txt文件中的欄位名,同上一步中定義的參數名

4
txt中定義需要同步的表,每行一張表名

END
新建任務,實現批量同步

新建任務,調用前面的轉換

其中,同步表的轉換需要設置循環執行,並將獲取到的表名傳遞伏激到轉換內部

❷ kettle中做查詢時,遇到大數據時怎麼處理

在kettle常常有處理從一個源數據中做轉換.做轉換的時候, 需要去查另一個資料庫.

這種問題遇到數據小時候還好辦. 但是數據魘 時候就麻煩來了.
下面針對三種情況做具體情況的選擇辦法
1. 當需要轉換的數據特別大的時候, 例如: 10W條以上.或者100W條以上時.

上圖中,hadoop數據導入氏碰,導入的數據如果夠多,例如100W條以上,其中一個欄位需要查詢資料庫中查詢,而這個欄位的類型並不多,例如只有10個類
型或者資料庫中就只有這10個類型.那麼,可以走線路2, 並且線路2中的 "使用緩存"
可以打勾,也可以不打.當然你這個源里的數據太多,打上當然最好了.因為省得再去你的資料庫里再查.
但是當源里的數據類型還是只有10個類型,但是你的資料庫裡面存了有10000條記錄時,怎麼辦?
有兩種解決辦法:
1).線路2:並且查詢鉛核猛節點中的 "使用緩存" 不能打勾.
2).線路1,並在"帶條件的結果查詢供流查詢使用" 這個結點中,用一個SQL,過濾一下數據,然後盡可能地把那裡包括的這些記錄查出來.這樣在流里的比對時.也很快很多.必竟是在內存里做運算了

2. 查另一個資料庫的數據量大時,而你的源數據不大.

最好的選擇是
線路1,並在"帶條件的結果查詢供流查詢使用" 這個結點中,用一個SQL,過濾一下數據,然後盡可能地把那裡包括的這些記錄查出來.這樣在流里的比對時.也很快很多.必竟是在內存里做運算了

3. 當兩個數據源都非常大時(最不想遇到的)
這種情況是最不想遇到的辦法
一種選擇:
1).線路2中的 "使用槐橋緩存" 打勾.

❸ kettle怎樣建立增量抽取數據

如果你用的是INNODB資料庫,有渣陪一個最簡單有如搭蠢效的調整,枝配就是將INI文件裡面的下面參數調整:
原始:
innodb_flush_log_at_trx_commit=1
調整為:
innodb_flush_log_at_trx_commit=2
具體什麼意思就不解釋了,試了效果好再去找度娘

❹ kettle按一列分組並把另一列合並為一條記錄怎麼做

首先:使用Sort rows控制項,根據胡液州需要分組的欄位AA排序下;
其次:使用Group by控制項,分組褲蔽欄位為:AA,Aggredates部分Name為新字埋鏈段名,Subjest為BB,Type選擇Concatenate strings separated by ,

❺ kettle之行轉列,刪除多餘連接符

最近在看行轉列的內容,這邊記錄一下。
數據集如下:

最終的效果如下:

2、在進行行轉列之前需要先按分組欄位進行排序,這個在關閉控制項時軟體也會提示

可以發現空值欄位也被連接,最後的效果還不是很理迅悄想,接下去要把多餘的逗號去掉
5、字元串替換,刪除頭部和啟轎中間多餘的逗號,這邊用到了正則表達式

效果如下

步驟3:利用剪切字元串,刪除末尾的逗號【剪切字元串這個控制項這邊有點奇怪,起始位置設為-1,結束位置要設的很小(絕對值不小於該欄位值的長畝旁渣度最大值)才能取到除最後一個字元的數據,設0和-1,會得到最後一個字元。。。】

效果如下

最後效果如下

❻ kettle如何將多行數據合並為一列

kettle的轉換中有控制項「行轉列」以及「列轉行」

❼ kettle提取postgresql數據

kettle提取postgresql數據步驟如下
1 遍歷區域和像素

其中xingzheng是行政區域數據表悄基,thematic是專題像素分類表
2 影像分割
通過查詢某個區域和影像的交,達到影像分割的目的,
查詢區明運陪域gid=24,波段為1,像素值為4的像素個數的sql語句為:

其中函數ST_Intersects查詢兩個幾何的交集,示例如下

3 柵格統計與數據提取
通過提取函數ST_ValueCount,查詢分割後的柵格、指定波段和像素的像素總個數,並乘以單個像元值大小,實現數據面積提取。

其中28.15132773 * 28.15132773為單個像元值面積大小,具體使用albers投影(雙標准緯線投影)計算得出,0.000001單位換算成平方公里。
區域gid和像素類型作為輸入,實現影像分割和柵格面積統計,完整的sql如下:

4 kettle數據提取轉換
kettle數據提取轉換過程如下:
kettle遍歷區域和像素,如kettle數據轉換圖所示「表輸入2」,sql見步驟1;
kettle影像分割和柵格統計,如kettle數據轉換圖所示「表輸入」,sql見步驟3;
將提取激蠢出的數據保存到文件中。

❽ 怎麼使用kettle進行增量數據的抽取

使用工具: 
kettle

首先需要考慮的問題是不可能是全量進行數據的拷貝,數據量如此龐大! 
那麼就得考慮增量,何為增量去網路。。哈哈哈

至於如何增量抽取數據,有很多種辦法,我這里示範的是通過時間去增量抽取(因為剛好別人的庫中每條記錄的時間記錄的都相當詳細,所以我認為這個比較好)。穗春

首先創建好實例庫:

SQL> desc timejob; Name Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

1

2

3

4

5

SQL> desc timejob_bak; Name Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

1

2

3

4

5

kettle中有自動生成UUID的功能,所以直接拿過來耍,為了簡潔方便,欄位使用比較少。 
首先利用kettle自動生成測試數據: 


主要生成UUID和當前系統時間到timejob表中(每隔2s執行一次),我們後續的操作都是對這張表中的數據進行一個備份。

下面第二步就是抽取該表中的數據到一個備份表中,timejob_bak。 
弊滑

這里由於是我第一次操作,比較簡單,就直接上圖了。。

獲得上次操作時間和系統時間存到變數中: 
 
這里的開始時間是通過表數據選項獲得上一次操作的最終結束時間,以作為我此次增量抽取的開始時間。第二個變數是獲得系統的當前時間。

根據時間抽取timejob表中的數據: 

獲取變數的寫法: 

此處獲取的變數就是上一步存入的變數,下面的抽取增量數租族臘據就是一個sql,從timejob表中抽取數據,存數據就是一個表輸出。 
抽取數據sq

❾ 使用kettle抽取了1200000條數據,現在要求分批上傳到druid,一次5000條,怎麼搞

可以採取臨時文件的方式圓判陵
kettle在文本輸出的時候可以設置5000行生成一個文件
然後再橘戚沖茄分文件導入你的druid

閱讀全文

與kettle海量數據怎麼分組相關的資料

熱點內容
宇花靈技術怎麼用 瀏覽:598
想去泉州賣菜哪個菜市場人流大 瀏覽:409
沈陽雪花酒水怎麼代理 瀏覽:123
rng秘密交易是什麼意思 瀏覽:730
重慶紅糖鍋盔怎麼代理賺錢嗎 瀏覽:381
考察投資項目關注哪些數據 瀏覽:590
家紡傢具都有什麼產品 瀏覽:35
丘氏冰棒產品有哪些 瀏覽:412
程序員如何拉到業務 瀏覽:177
揭陽火車站到炮台市場怎麼走 瀏覽:843
二線國企程序員怎麼提升技能 瀏覽:154
藍翔技術學院西點多少錢 瀏覽:787
徐工集團北京代理點有哪些 瀏覽:531
如何做龍大總代理 瀏覽:925
裝飾行業招聘信息哪個平台多 瀏覽:953
中國有多少壓箱底技術 瀏覽:855
如何看一家公司信息 瀏覽:339
傢具品牌代理有哪些 瀏覽:394
表格里怎麼篩選中間兩位數據 瀏覽:616
steam移動應用怎麼驗證交易 瀏覽:568