背景

上一期月报 MariaDB on Power8我介绍了下 MariaDB 为 Power 处理器所做的一些优化,但是并没有给出实际测试的效果,这次月报我们借到了一台Power8的机器,有机会亲自试一把 MariaDB 在 Power 上的表现。

环境

一切不交代测试场景的Benchmark都是Benchmarketing。

因为Power和Intel之间对标的CPU型号我无法得知,因此这个测试仅仅用来观察MariaDB/MySQL在Power和Intel之间一些特质的差异,而非性能的直接对比。

Power 这边我们拿到的是 PowerVM 虚拟化的32核Power8机器,Intel这边用的是我们日常测试的E5-2630机型,虚拟机 vs 物理机,两者的价格我也没有数据,所以不要直接对比性能,不要直接对比性能,不要直接对比性能!

Power战队

处理器规格:

  1. processor : 0
  2. cpu : POWER8 (architected), altivec supported
  3. clock : 3425.000000MHz
  4. revision : 2.1 (pvr 004b 0201)

处理器核数:

  1. [root@plx sysbench]# cat /proc/cpuinfo | grep processor | wc -l
  2. 32

内存:

  1. [root@plx sysbench]# free -g
  2. total used free shared buff/cache available
  3. Mem: 30 7 3 0 19 22
  4. Swap: 15 0 15

Intel战队

处理器规格:

  1. processor : 0
  2. vendor_id : GenuineIntel
  3. cpu family : 6
  4. model : 45
  5. model name : Intel(R) Xeon(R) CPU E5-2630 0 @ 2.30GHz
  6. stepping : 7
  7. cpu MHz : 2294.709
  8. cache size : 15360 KB
  9. physical id : 0
  10. siblings : 12
  11. core id : 0
  12. cpu cores : 6
  13. apicid : 0
  14. initial apicid : 0
  15. fpu : yes
  16. fpu_exception : yes
  17. cpuid level : 13
  18. wp : yes
  19. flags : fpu vme de pse tsc msr pae mce cx8 apic mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good xtopology nonstop_tsc aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm dca sse4_1 sse4_2 x2apic popcnt aes xsave avx lahf_lm arat epb xsaveopt pln pts dts tpr_shadow vnmi flexpriority ept vpid
  20. bogomips : 4589.41
  21. clflush size : 64
  22. cache_alignment : 64
  23. address sizes : 46 bits physical, 48 bits virtual
  24. power management:

处理器核数:

  1. $cat /proc/cpuinfo | grep processor | wc -l
  2. 24

内存:

  1. $free -g
  2. total used free shared buffers cached
  3. Mem: 189 53 135 0 0 2
  4. -/+ buffers/cache: 50 138
  5. Swap: 1 0 1

CPU理论性能测试

首先我们用sysbench简单测试下CPU的计算能力。

测试命令:

  1. sysbench --test=cpu --cpu-max-prime=20000 --num-threads=$num run

我在每个平台上至少执行了3次测试,只有连续三次测试结果差异极小的时候,才认为最后一次测试结果有效。因为Power8是一台虚拟机,并不能保证宿主机任何时候都只有我在用。

下面是原始测试数据的表格:

Power CPU理论测试

线程总耗时(s)平均延时(ms)95%延时(ms)
1201.6720.1720.19
466.6126.6433.18
859.9047.90106.78
1649.1878.62119.75
3237.37119.36119.86
6437.37237.32349.90
12837.38469.16619.61
51237.381671.312179.63

Intel CPU理论测试

线程总耗时(s)平均延时(ms)95%延时(ms)
1827.0882.7183.02
4206.9782.7783.24
8103.4582.7283.14
1660.0295.96114.39
3247.52151.89230.74
6447.53303.26350.64
12847.53604.46695.92
51247.532360.402759.46

CPU理论性能对比

(注:比值指的是相同线程数下,Intel耗时是Power的多少倍)

线程Power总耗时(s)Intel总耗时(s)比值
1201.67827.084.10
466.61206.973.11
859.90103.451.73
1649.1860.021.22
3237.3747.521.27
6437.3747.531.27
12837.3847.531.27
51237.3847.531.27

从上面三个图我们可以总结一些硬件上的特性:

  • 单核心效率Power要高于Intel。3.425GHz 的 Power8 耗时是 2.6GHZ 的 E5-2630 的 1/4,CPU频率只有1.3倍的差异;
  • 并发足够高时,性能差异并没有那么大,耗时稳定在1.27倍左右。而核心数Power也是Intel的1.33倍。

场景

本次测试共有三种场景:

  • MariaDB 10.1.10 on Power
  • MariaDB 10.1.10 on Intel
  • RDS MySQL 5.6.16 on Intel

为何没有 MySQL on Power 呢,因为编译不过。。。

Buffer Pool全部为16G,数据文件大小为8G上下,保证数据可以全部载入内存。

测试命令:

  1. ./sysbench --db-dirver=mysql --mysql-host=127.0.0.1 --mysql-port=3001 --mysql-user=root --test=tests/db/select.lua --mysql-table-engine=innodb --oltp-table-size=500000 --oltp-tables-count=64 --max-time=1800 --max-requests=2000000000 --num-threads=$num run

为什么只测读?因为Power主机和Intel主机上使用的硬盘不一样,HDD vs. SDD,测写就完全没有意义了,HDD会被SSD吊打。

因为做过PREPARE之后就直接开测,没有关过MySQL,因此测试时数据都是在内存中的,不会产生物理IO。

下面是测试结果原始数据的表格: (注:TPS变动比例指当前线程数下的TPS相对于上一轮测试的TPS的比值)

MariaDB on Power

线程TPS平均耗时(ms)95%耗时(ms)TPS变动比例
114279.190.070.08
441563.430.090.12291.08%
863601.750.120.18153.02%
1694346.290.170.23148.34%
32119444.320.260.45126.60%
64129451.950.490.82108.38%
128123414.891.031.7595.34%
256112408.112.274.0091.08%
512113163.744.528.59100.67%
768105875.567.2415.5393.56%

RDS MySQL on Intel

线程TPS平均耗时(ms)95%耗时(ms)TPS变动比例
110742.700.090.11
440061.400.100.12372.92%
868544.880.120.14171.10%
16109659.960.140.16159.98%
32149450.120.210.39136.29%
64145596.260.440.7597.42%
128139679.850.914.9695.94%
256141907.181.8011.73101.59%
51261794.878.2825.7943.55%

MariaDB on Intel

线程TPS平均耗时(ms)95%耗时(ms)TPS变动比例
19673.510.100.12
437394.200.110.13386.56%
847347.030.170.19126.62%
16107496.940.150.18227.04%
32140805.330.220.35130.99%
64137045.700.460.6697.33%
128138472.960.920.36101.04%
256134908.321.907.2397.43%
512131814.553.8819.0497.71%

下面是对比的表格:

MySQL vs MariaDB on Intel

(注:变化率是指MariaDB的数值相对于MySQL的数值的比值的百分比)

线程MySQL TPS平均耗时(ms)95%耗时(ms)MariaDB TPS平均耗时(ms)95%耗时(ms)TPS变化率平均延时变化率95%延时变化率
110742.700.090.119673.510.100.1290.05%111.11%109.09%
440061.400.100.1237394.200.110.1393.34%110.00%108.33%
868544.880.120.1447347.030.170.1969.07%141.67%135.71%
16109659.960.140.16107496.940.150.1898.03%107.14%112.50%
32149450.120.210.39140805.330.220.3594.22%104.76%89.74%
64145596.260.440.75137045.700.460.6694.13%104.55%88.00%
128139679.850.914.96138472.960.920.3699.14%101.10%7.26%
256141907.181.8011.73134908.321.907.2395.07%105.56%61.64%
51261794.878.2825.79131814.553.8819.04213.31%46.86%73.83%

MariaDB on Intel vs Power

(注:变化率是指Power平台的数值相对于Intel平台的数值的比值的百分比)

线程Intel TPS平均耗时(ms)95%耗时(ms)Power TPS平均耗时(ms)95%耗时(ms)TPS变化率平均延时变化率95%延时变化率
19673.510.100.1214279.190.070.08147.61%70.00%66.67%
437394.200.110.1341563.430.090.12111.15%81.82%92.31%
847347.030.170.1963601.750.120.18134.33%70.59%94.74%
16107496.940.150.1894346.290.170.2387.77%113.33%127.78%
32140805.330.220.35119444.320.260.4584.83%118.18%128.57%
64137045.700.460.66129451.950.490.8294.46%106.52%124.24%
128138472.960.920.36123414.891.031.7589.13%111.96%486.11%
256134908.321.907.23112408.112.274.0083.32%119.47%55.33%
512131814.553.8819.04113163.744.528.5985.85%116.49%45.12%

这个测试结果跟上一篇月报中IBM给出的官方测试对比有很大差异。

我们就来看看这些测试结果反映了些什么问题:

  • 如果只看 MariaDB on Power 和 MySQL on Intel 的结果,我会以为 Power 在高并发时性能更稳定,但看了 MariaDB on Intel 的测试结果之后,意识到这是 MariaDB Thread Pool 的功劳,并不是Power平台的优势;
  • 对比 MySQL on Intel 和 MariaDB on Intel 可以明显的看到,16并发和256并发是明显的分水岭,16并发之前MySQL优势明显,16并发到256并发之间两者差距不大,256并发之后,MariaDB完爆MySQL;
  • 看 MariaDB 在 Power 和 Intel 平台下的表现,16并发之前 Power 优势会明显一点,16并发之后 Intel 就追上来了并且超越了 Power。这跟我们上面做的 CPU 理论测试结果差不多,大家可以上去翻表格,16线程之前 Power 效率要高于 Intel,但是之后基本就稳定了;
  • 所以,官方的Benchmark永远不可靠,自己动手才是硬道理。