导航:首页 > 数据处理 > 如何预防数据倾斜

如何预防数据倾斜

发布时间:2024-12-01 00:30:07

1. ODPS SQL 优化总结

优化总结:SQL使用技巧与性能提升

1、利用null处理:在判断条件中处理null时,使用nvl或coalesce函数进行默认转换,避免null影响判断结果。

2、选择性列查询:在数据开发或线上任务中,应提前剪裁列,即使需要所有列,也明确列出,减少不必要的数据读取,预防后期表结构变动导致的错误。

3、多表插入优化:读取同一表但在不同粒度下插入多表时,采用from () tab insert overwrite A insert overwrite B方法,减少资源浪费。注意遵循团队开发规范,合理复用公共数据,如通过临时表存储逻辑。

4、分区限定:ODPS表为分区表,应习惯性限定分区ds,避免因分区限定问题导致的任务资源浪费。

5、使用limit:在临时查询或数据探查时,加上limit快速获取所需数据,减少资源消耗。

6、UDF函数下沉:将UDF函数下沉到子查询中,提高效率。

7、行转列与列转行:利用collect_set、lateral view函数实现,参考大佬经验。

8、窗口函数应用:使用row_number()或max(struct())等方法实现数据排序或计算。

9、关联类型:掌握左关联、内关联、右关联等,适应不同场景下的多表关联,确保关联字段类型一致。

10、笛卡尔积处理:针对需求翻倍一行数据的场景,创建维表并通过笛卡尔积操作,或使用:LATERAL VIEW POSEXPLODE方法。

11、提高map数:通过调整split size hint优化商品表效率,使用/*+SPLIT_SIZE(8)*/调整,单位为MB。

数据倾斜优化策略:

1)大表关联小表:使用mapjoin hint,调整中小表内存大小,通过set odps.sql.mapjoin.memory.max调整,单位M。

2)大表关联大表:拆分热点数据,使用普通join或skewjoin hint,针对分区与桶优化关联。

3)count distinct问题:通过group by先去重再count解决。

4)ODPS新特性:关注MaxCompute(ODPS2.0)特性,性能优化显着。

小表关联大表优化:使用dynamic_filter,调整/*+dynamic_filter(A,B)*/。

参数设置优化:

1)Map设置:调整odps.sql.mapper.cpu、memory、merge.limit.size、split.size,根据任务特点合理调整。

2)Join设置:调整odps.sql.joiner.instances、cpu、memory,针对Join任务特性进行调整。

3)Rece设置:调整odps.sql.recer.instances、cpu、memory,优化任务性能。

4)小文件合并参数:设置odps.merge.cross.paths、filesize.threshold、maxmerged.filesize.threshold、max.filenumber.per.instance、max.filenumber.per.job,控制文件合并。

5)UDF相关参数:调整odps.sql.udf.jvm.memory、timeout、python.memory、optimize.reuse、strict.mode,优化UDF性能。

Mapjoin设置:使用odps.sql.mapjoin.memory.max调整小表最大内存。

动态分区设置:使用set odps.sql.reshuffle.dynamicpt控制动态分区优化。

数据倾斜设置:使用set odps.sql.groupby.skewindata、odps.sql.skewjoin优化Group By与Join操作。

SQL优化案例:

关联与数据倾斜优化:发现数据倾斜,尝试使用skewjoin、热点数据分离等方法,最终通过隐式转换问题解决,确保关联操作的正确性。

分桶解决大表与大表关联:使用hash clustering分散数据,减少资源消耗,提高查询效率。

BitMap在多维汇总中的应用:利用BitMap实现去重汇总,解决数据倾斜问题,优化多维汇总模型性能。

总结:SQL优化是理解业务逻辑、合理利用工具、控制资源消耗的过程。在满足业务需求的同时,追求效率与成本的优化。

阅读全文

与如何预防数据倾斜相关的资料

热点内容
全柴485数据是多少 浏览:229
如何了解一个国外市场 浏览:638
2017女生什么技术吃香 浏览:444
津南区有哪些水果批发市场 浏览:950
怎么把产品卖到超市 浏览:436
韩国代购电子产品怎么样 浏览:449
如何接收信息没有声音 浏览:723
豌豆尖怎么种植技术 浏览:605
一只橘猫平均市场价多少元 浏览:552
如何10000条数据分成10份 浏览:273
江南劳动力市场在哪里 浏览:50
重庆木门建材市场有哪些 浏览:83
兴业红木市场在哪里 浏览:185
诉讼代理人费用什么时间支付 浏览:548
代理记账是指哪些做账 浏览:188
尿常规多少数据正常 浏览:30
亚铝福州代理商电话多少 浏览:747
理财产品非赎回开放时段什么意思 浏览:27
狂野飙车怎么进行交易 浏览:345
代理报关公司是什么 浏览:432