网站首页 > 技术文章 正文
一、 问题背景与适用场景
在以前的文章中我们介绍过,关系数据库在进行表间关联时是使用HASH分段技术。设两个关联表的规模(记录数)分别是 N 和 M,则 HASH 分段技术的计算复杂度(关联字段的比较次数)大概是 SUM(Ni*Mi),其中 Ni 和 Mi 分别是 HASH 值为 i 的两表记录数,满足 N=SUM(Ni) 和 M=SUM(Mi),这大概率会比完全遍历时的复杂度 N*M 要小很多(运气较好的时候会小 K 倍,K 是 HASH 值的取值范围)。
如果这两个表针对关联键都有序,那么我们就可以使用归并算法来处理关联,这时的复杂度是 N+M;在 N 和 M 都较大的时候(一般都会远大于 K),这个数会远小于刚才那个 SUM(Ni*Mi)。因此有序归并关联的计算速度会比HASH分段关联快很多。
在实际应用中,因为同维表和主子表总是针对主键或主键的一部分关联,我们可以事先把这些关联表的数据按其主键排序,以后就可以总是使用归并算法实现关联,效率能提高很多。SPL即采用了这样的算法。
下面我们就用集算器SPL与关系数据库Oracle作个对比,来测试一下有序归并关联的效率。
二、 测试环境
1、小数据全内存测试
测试机有两个Intel2670 CPU,主频2.6G,共16核,内存128G,SSD固态硬盘。
采用TPCH标准生成的50G数据,主表是orders,子表是orderdetail(由lineitem表数据记录减少后生成)。两表中记录分别按O_ORDERKEY、L_ORDERKEY升序排列。
Oracle和SPL均使用单线程测试。
2、大数据外存测试
采用前述测试机中的虚拟机,内存16G,SSD固态硬盘。
采用TPCH标准生成的200G数据,主表是orders,子表是lineitem。两表中记录分别按O_ORDERKEY、L_ORDERKEY升序排列。
因数据量比较大,Oracle和SPL均使用8线程并行测试。
三、 小数据全内存测试
1. Oracle测试
(1)无关联测试
测试的SQL语句如下:
select
l_year,
sum(volume) as revenu,
sum(l_quantity) as quantity
from
(
select
extract(year from l_shipdate) as l_year,
(l_extendedprice * (1 - l_discount) ) as volume,
l_quantity
from
orderdetail
)
group by
l_year
union all
select
2019 as l_year,
count(o_orderkey) as revenu,
count(o_totalprice) as quantity
from
orders;
(2)有关联测试
测试的SQL语句如下:
select
l_year,
sum(volume) as revenu,
sum(l_quantity) as quantity
from
(
select
extract(year from l_shipdate) as l_year,
(l_extendedprice * (1 - l_discount) ) as volume,
l_quantity
from
orders,
orderdetail
where
o_orderkey = l_orderkey
and l_quantity>0
)
group by
l_year;
查询条件 l_quantity>0 始终为真,没有过滤数据,是为了确保会读取这一列数据。
2. SPL测试
(1)无关联测试
编写SPL脚本如下:
(2)有关联测试
编写SPL脚本如下:
A6中的joinx就是有序归并关联函数,要求关联字段都按升序排列。
3. 测试结果及分析
测试结果列表如下(单位:秒):
每种测试结果都是多次运行、数据充分缓存以后,取最快的一次。
分析两句SQL,无关联测试中对orders表读出O_ORDERKEY、O_TOTALPRICE两列并统计记录数,对orderdetail表读出L_ORDERKEY、L_EXTENDEDPRICE、L_DISCOUNT、L_SHIPDATE、L_QUANTITY 五列,并对销售价格求和、对L_QUANTITY求和。而在有关联测试中,对orders和orderdetail表的读取量相同,同时对关联后的销售价格求和、对L_QUANTITY求和。两种情况下的读取和计算量基本是相当的,多出的操作就是两表间的关联,所以两者的运行时间差就是关联操作用时。同理,SPL也是如此。
在同样的硬件设备和数据规模下,SPL关联用时18秒,Oracle关联用时51秒,几乎是前者的3倍,而且SPL是Java编写的程序,而Oracle是C++实现的,这充分验证了有序归并关联能够极大地提高关联效率。SPL有关联比无关联时速度慢了2.3倍,Oracle慢了4.2倍,说明有序归并计算与普通计算速度相当,而HASH关联比普通计算要慢很多。
四、 大数据外存测试
当要 JOIN 的两个表都大到内存无法放下的时候,关系数据库仍然是使用 HASH 分段的技术。根据关联字段的 HASH 值,将数据分成若干段,每段都足够小到能装入内存再实施内存的 HASH 分段算法。但这会发生外存倒换的问题,数据需要先分段写出再读入,多出一写一读,外存读本来就不快,写就更慢,这样性能会差出很多。
有序归并关联则没有这个问题,两个表的数据都只要遍历一次就行了,不仅是 CPU 的计算量减少,外存的 IO 量也大幅下降。而且,执行归并算法需要的内存很少,只要在内存中为每个表保持数条缓存记录就可以了,几乎不会影响其它并发任务对内存的需求。
1. Oracle测试
(1)无关联测试
测试的SQL语句与小数据测试相同,只需把orderdetail表改成lineitem表,另在第一个select后添加“ /*+ parallel(8) */”使用8线程并行。
(2)有关联测试
测试的SQL语句与小数据测试相同,只需把orderdetail表改成lineitem表,另在第一个select后添加“ /*+ parallel(8) */”使用8线程并行。
2. SPL测试
(1)无关联测试
编写SPL脚本如下:
数据量大,A2和A4都使用8路并行游标读数。
(2)有关联测试
编写SPL脚本如下:
A3中生成游标时用了A2作为参数,表示与主表orders的主键同步分段读取。
A4中的joinx就是有序归并关联函数,要求关联字段都按升序排列。
3. 测试结果及分析
测试结果列表如下(单位:秒):
计算量分析及关联用时计算与小数据测试同理。
在同样的硬件设备和数据规模下,SPL关联用时31秒,Oracle关联用时598秒,是前者的19倍,更进一步验证了有序归并关联能够极大地提高关联效率。与小数据测试时相比,倍数大大增加,说明数据量越大,有序归并关联比HASH关联的性能提升优势越明显。
有关联比无关联变慢的倍数也可以得出与小数据测试时同样的结论,不过这里比小数据测试时多了读取数据的时间(小数据时数据全部缓存到内存了),所以无关联测试时的时间基数变大了,变慢倍数看起来反而比小数据测试时减小了。
- 上一篇: java juc forkjoin 并行流计算详解
- 下一篇: 大数据分析师工程师入门6-HIVE进阶
猜你喜欢
- 2024-11-05 超实用!手把手入门 MongoDB:这些坑点请一定远离
- 2024-11-05 T-SQL语句基础-增删改查 sql的增删改查指什么
- 2024-11-05 「计算机组成原理」:一文快速了解计算机原理知识点-附思维导图
- 2024-11-05 大数据分析师工程师入门6-HIVE进阶
- 2024-11-05 java juc forkjoin 并行流计算详解
- 2024-11-05 《从实践中学习oracle/SQL》读书笔记 3
- 2024-11-05 MySQL常用函数详解,内含示例 mysql常用函数详解,内含示例分析
- 2024-11-05 word中最实用的办公技巧——神奇的F4,让你省时省力,效率翻倍
- 2024-11-05 mysql分组查询详解(group by & having)
- 2024-11-05 「数据分析工具」玩转数据分析中常用的SQL函数
你 发表评论:
欢迎- 621℃几个Oracle空值处理函数 oracle处理null值的函数
- 613℃Oracle分析函数之Lag和Lead()使用
- 602℃0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8
- 598℃Oracle数据库的单、多行函数 oracle执行多个sql语句
- 594℃Oracle 12c PDB迁移(一) oracle迁移到oceanbase
- 586℃【数据统计分析】详解Oracle分组函数之CUBE
- 575℃最佳实践 | 提效 47 倍,制造业生产 Oracle 迁移替换
- 563℃Oracle有哪些常见的函数? oracle中常用的函数
- 最近发表
- 标签列表
-
- 前端设计模式 (75)
- 前端性能优化 (51)
- 前端模板 (66)
- 前端跨域 (52)
- 前端缓存 (63)
- 前端aes加密 (58)
- 前端脚手架 (56)
- 前端md5加密 (54)
- 前端路由 (61)
- 前端数组 (73)
- 前端js面试题 (50)
- 前端定时器 (59)
- 前端获取当前时间 (50)
- Oracle RAC (76)
- oracle恢复 (77)
- oracle 删除表 (52)
- oracle 用户名 (80)
- oracle 工具 (55)
- oracle 内存 (55)
- oracle 导出表 (62)
- oracle约束 (54)
- oracle 中文 (51)
- oracle链接 (54)
- oracle的函数 (58)
- 前端调试 (52)
本文暂时没有评论,来添加一个吧(●'◡'●)