Tags：性能 - SelBoo's Blog 色萝卜

分页： 3/3

1 2 3

[ 显示模式：摘要 | 列表 ]

性能分析工具汇总

[ 2009/04/08 23:32 | by selboo ]

CPU性能分析工具：

vmstat

ps

sar

time

strace

pstree

top

Memory性能分析工具：

vmstat

strace

top

ipcs

ipcrm

cat /proc/meminfo

cat /proc/slabinfo

cat /proc//maps

I/O性能分析工具：

vmstat

ipstat

repquota

quotacheck

Network性能分析工具：

ifconfig

ethereal

tethereal

iptraf

iwconfig

nfsstat

mrtg

ntop

netstat

cat /proc/sys/net

Linux 性能调优工具

当通过上述工具及命令，我们发现了应用的性能瓶颈以后，我们可以通过以下工具或者命令来进行性能的调整。

CPU性能调优工具：

nice / renic

sysctl

Memory性能调优工具：

swapon

ulimit

sysctl

I/O性能调优工具：

edquota

quoton

sysctl

boot line:

elevator=

Network性能调优工具：

ifconfig

iwconfig

sysctl

CPU性能调整

当一个系统的CPU空闲时间或者等待时间小于5%时，我们就可以认为系统的CPU资源耗尽，我们应该对CPU进行性能调整。

CPU性能调整方法：

编辑/proc/sys/kernel/中的文件，修改内核参数。

#cd /proc/sys/kernel/

# ls /proc/sys/kernel/

acct hotplug panic real-root-dev

cad_pid modprobe panic_on_oops sem

cap-bound msgmax pid_max shmall

core_pattern msgmnb powersave-nap shmmax

core_uses_pid msgmni print-fatal-signals shmmni

ctrl-alt-del ngroups_max printk suid_dumpable

domainname osrelease printk_ratelimit sysrq

exec-shield ostype printk_ratelimit_burst tainted

exec-shield-randomize overflowgid pty threads-max

hostname overflowuid random version

一般可能需要编辑的是pid_max和threads-max，如下：

# sysctl kernel.threads-max

kernel.threads-max = 8192

# sysctl kernel.threads-max=10000

kernel.threads-max = 10000

Memory性能调整

当一个应用系统的内存资源出现下面的情况时，我们认为需要进行Memory性能调整：

页面频繁换进换出；

缺少非活动页。

例如在使用vmstat命令时发现，memory的cache使用率非常低，而swap的si或者so则有比较高的数据值时，应该警惕内存的性能问题。

Memory性能调整方法：

1。关闭非核心的服务进程。

相关的方法请见CPU性能调整部分。

2。修改/proc/sys/vm/下的系统参数。

# ls /proc/sys/vm/

block_dump laptop_mode nr_pdflush_threads

dirty_background_ratio legacy_va_layout overcommit_memory

dirty_expire_centisecs lower_zone_protection overcommit_ratio

dirty_ratio max_map_count page-cluster

dirty_writeback_centisecs min_free_kbytes swappiness

hugetlb_shm_group nr_hugepages vfs_cache_pressure

# sysctl vm.min_free_kbytes

vm.min_free_kbytes = 1024

# sysctl -w vm.min_free_kbytes=2508

vm.min_free_kbytes = 2508

# cat /etc/sysctl.conf

…

vm.min_free_kbytes=2058

…

3。配置系统的swap交换分区等于或者2倍于物理内存。

# free

total used free shared buffers cached

Mem: 987656 970240 17416 0 63324 742400

-/+ buffers/cache: 164516 823140

Swap: 1998840 150272 1848568

I/O性能调整

系统出现以下情况时，我们认为该系统存在I/O性能问题：

系统等待I/O的时间超过50%；

一个设备的平均队列长度大于5。

我们可以通过诸如vmstat等命令，查看CPU的wa等待时间，以得到系统是否存在I/O性能问题的准确信息。

I/O性能调整方法：

1。修改I/O调度算法。

Linux已知的I/O调试算法有4种：

deadline - Deadline I/O scheduler

as - Anticipatory I/O scheduler

cfq - Complete Fair Queuing scheduler

noop - Noop I/O scheduler

可以编辑/etc/yaboot.conf文件修改参数elevator得到。

# vi /etc/yaboot.conf

image=/vmlinuz-2.6.9-11.EL

label=linux

read-only

initrd=/initrd-2.6.9-11.EL.img

root=/dev/VolGroup00/LogVol00

append="elevator=cfq rhgb quiet"

2。文件系统调整。

对于文件系统的调整，有几个公认的准则：

将I/O负载相对平均的分配到所有可用的磁盘上；

选择合适的文件系统，Linux内核支持reiserfs、ext2、ext3、jfs、xfs等文件系统；

# mkfs -t reiserfs -j /dev/sdc1

文件系统即使在建立后，本身也可以通过命令调优；

tune2fs (ext2/ext3)

reiserfstune (reiserfs)

jfs_tune (jfs)

3。文件系统Mount时可加入选项noatime、nodiratime。

# vi /etc/fstab

…

/dev/sdb1 /backup reiserfs acl, user_xattr, noatime, nodiratime 1 1

4。调整块设备的READAHEAD，调大RA值。

[root@overflowuid ~]# blockdev --report

RO RA SSZ BSZ StartSec Size Device

…

rw 256 512 4096 0 71096640 /dev/sdb

rw 256 512 4096 32 71094240 /dev/sdb1

[root@overflowuid ~]# blockdev --setra 2048 /dev/sdb1

[root@overflowuid ~]# blockdev --report

RO RA SSZ BSZ StartSec Size Device

…

rw 2048 512 4096 0 71096640 /dev/sdb

rw 2048 512 4096 32 71094240 /dev/sdb1

Network性能调整

一个应用系统出现如下情况时，我们认为该系统存在网络性能问题：

网络接口的吞吐量小于期望值；

出现大量的丢包现象；

出现大量的冲突现象。

Network性能调整方法：

1。调整网卡的参数。

# ethtool eth0

Settings for eth0:

Supported ports: [ TP ]

Supported link modes: 10baseT/Half 10baseT/Full

100baseT/Half 100baseT/Full

1000baseT/Full

Supports auto-negotiation: Yes

Advertised link modes: 10baseT/Half 10baseT/Full

100baseT/Half 100baseT/Full

1000baseT/Full

Advertised auto-negotiation: Yes

Speed: 100Mb/s

Duplex: Half

Port: Twisted Pair

PHYAD: 0

Transceiver: internal

Auto-negotiation: on

Supports Wake-on: d

Wake-on: d

Current message level: 0x00000007 (7)

Link detected: yes

#ethtool -s eth0 duplex full

#ifconfig eth0 mtu 9000 up

2。增加网络缓冲区和包的队列。

# cat /proc/sys/net/ipv4/tcp_mem

196608 262144 393216

# cat /proc/sys/net/core/rmem_default

135168

# cat /proc/sys/net/core/rmem_max

131071

# cat /proc/sys/net/core/wmem_default

135168

# cat /proc/sys/net/core/wmem_max

131071

# cat /proc/sys/net/core/optmem_max

20480

# cat /proc/sys/net/core/netdev_max_backlog

300

# sysctl net.core.rmem_max

net.core.rmem_max = 131071

# sysctl -w net.core.rmem_max=135168

net.core.rmem_max = 135168

3。调整Webserving。

# sysctl net.ipv4.tcp_tw_reuse

net.ipv4.tcp_tw_reuse = 0

# sysctl -w net.ipv4.tcp_tw_reuse=1

net.ipv4.tcp_tw_reuse = 1

# sysctl net.ipv4.tcp_tw_recycle

net.ipv4.tcp_tw_recycle = 0

# sysctl -w net.ipv4.tcp_tw_recycle=1

net.ipv4.tcp_tw_recycle = 1

Tags: 性能 , 工具

Linux | 评论(0) | 引用(0)

Ext3和Ext4文件系统性能对比

[ 2009/03/20 20:57 | by selboo ]

来源：http://hi.baidu.com/augustinezl

我对Ubuntu9.04中新加入的EXt4文件系统一直非常好奇，今天没事就找了找相关的资料跟大家分享一下，EXT4和EXT3相比具有哪些改进。

Ext4 是 Ext3 的改进版，修改了 Ext3 中部分重要的数据结构，而不仅仅像 Ext3 对 Ext2 那样，只是增加了一个日志功能而已。Ext4 可以提供更佳的性能和可靠性，还有更为丰富的功能。
Linux kernel 自 2.6.28 开始正式支持新的文件系统 Ext4。 Ext4 是 Ext3 的改进版，修改了 Ext3 中部分重要的数据结构，而不仅仅像 Ext3 对 Ext2 那样，只是增加了一个日志功能而已。Ext4 可以提供更佳的性能和可靠性，还有更为丰富的功能：

1. 与 Ext3 兼容。执行若干条命令，就能从 Ext3 在线迁移到 Ext4，而无须重新格式化磁盘或重新安装系统。原有 Ext3 数据结构照样保留，Ext4 作用于新数据，当然，整个文件系统因此也就获得了 Ext4 所支持的更大容量。

2. 更大的文件系统和更大的文件。较之 Ext3 目前所支持的最大 16TB 文件系统和最大 2TB 文件，Ext4 分别支持 1EB（1,048,576TB， 1EB=1024PB， 1PB=1024TB）的文件系统，以及 16TB 的文件。

3. 无限数量的子目录。Ext3 目前只支持 32,000 个子目录，而 Ext4 支持无限数量的子目录。

4. Extents。Ext3 采用间接块映射，当操作大文件时，效率极其低下。比如一个 100MB 大小的文件，在 Ext3 中要建立 25,600 个数据块（每个数据块大小为 4KB）的映射表。而 Ext4 引入了现代文件系统中流行的 extents 概念，每个 extent 为一组连续的数据块，上述文件则表示为“该文件数据保存在接下来的 25,600 个数据块中”，提高了不少效率。

5. 多块分配。当写入数据到 Ext3 文件系统中时，Ext3 的数据块分配器每次只能分配一个 4KB 的块，写一个 100MB 文件就要调用 25,600 次数据块分配器，而 Ext4 的多块分配器“multiblock allocator”（mballoc）支持一次调用分配多个数据块。

6. 延迟分配。Ext3 的数据块分配策略是尽快分配，而 Ext4 和其它现代文件操作系统的策略是尽可能地延迟分配，直到文件在 cache 中写完才开始分配数据块并写入磁盘，这样就能优化整个文件的数据块分配，与前两种特性搭配起来可以显著提升性能。

7. 快速 fsck。以前执行 fsck 第一步就会很慢，因为它要检查所有的 inode，现在 Ext4 给每个组的 inode 表中都添加了一份未使用 inode 的列表，今后 fsck Ext4 文件系统就可以跳过它们而只去检查那些在用的 inode 了。

8. 日志校验。日志是最常用的部分，也极易导致磁盘硬件故障，而从损坏的日志中恢复数据会导致更多的数据损坏。Ext4 的日志校验功能可以很方便地判断日志数据是否损坏，而且它将 Ext3 的两阶段日志机制合并成一个阶段，在增加安全性的同时提高了性能。

9. “无日志”（No Journaling）模式。日志总归有一些开销，Ext4 允许关闭日志，以便某些有特殊需求的用户可以借此提升性能。

10. 在线碎片整理。尽管延迟分配、多块分配和 extents 能有效减少文件系统碎片，但碎片还是不可避免会产生。Ext4 支持在线碎片整理，并将提供 e4defrag 工具进行个别文件或整个文件系统的碎片整理。

11. inode 相关特性。Ext4 支持更大的 inode，较之 Ext3 默认的 inode 大小 128 字节，Ext4 为了在 inode 中容纳更多的扩展属性（如纳秒时间戳或 inode 版本），默认 inode 大小为 256 字节。Ext4 还支持快速扩展属性（fast extended attributes）和 inode 保留（inodes reservation）。

12. 持久预分配（Persistent preallocation）。P2P 软件为了保证下载文件有足够的空间存放，常常会预先创建一个与所下载文件大小相同的空文件，以免未来的数小时或数天之内磁盘空间不足导致下载失败。Ext4 在文件系统层面实现了持久预分配并提供相应的 API（libc 中的 posix_fallocate()），比应用软件自己实现更有效率。

13. 默认启用 barrier。磁盘上配有内部缓存，以便重新调整批量数据的写操作顺序，优化写入性能，因此文件系统必须在日志数据写入磁盘之后才能写 commit 记录，若 commit 记录写入在先，而日志有可能损坏，那么就会影响数据完整性。Ext4 默认启用 barrier，只有当 barrier 之前的数据全部写入磁盘，才能写 barrier 之后的数据。（可通过 "mount -o barrier=0" 命令禁用该特性。）

Ext4 随 Linux kernel 2.6.28 正式发布已有数周，一直苦于找不到测试用的磁盘，正巧年前 Intel 送来几块 SSD 测试样品，这两天就顺带把 SSD 也测了。测试所使用的 Linux 内核版本为 2.6.28.2，测试工具为 IOzone 3.318。

IOzone 测试命令为：

time /opt/iozone/bin/iozone -a -s 4G -q 256 -y 4 >|/root/ext4-iozone-stdout.txt

上述命令的说明如下：

Auto Mode
File size set to 4194304 KB
Using Maximum Record Size 256 KB
Using Minimum Record Size 4 KB
Command line used: /opt/iozone/bin/iozone -a -s 4G -q 256 -y 4
Output is in Kbytes/sec
Time Resolution = 0.000001 seconds.
Processor cache size set to 1024 Kbytes.
Processor cache line size set to 32 bytes.
File stride size set to 17 * record size.

测试结果除了表明 Intel SSD 的读写速度快得令人咋舌之外，还可以说明 Ext4 的各方面性能都超过了上一代 Ext3，甚至在大多数情况下，比没有日志功能的 Ext2 还要快出不少。

Linux | 评论(0) | 引用(0)

衡量web性能一个性能等式

[ 2009/03/16 23:12 | by selboo ]

      给大家分享一个衡量 Web 应用程序性能的一个公式,今天不经意中看到了这个公式,感觉获益良多,并做了一点小小的修改,在这里分享给大家,希望对大家有所帮助.

      R=吞吐量/带宽+RTT+Appturns(RTT)/并发请求+Cs+Cc

      这个公式来源于2006 年 9 月,NetForecast 的 Peter Sevcik 和 Rebecca Wetzel 发表了一篇名为 "Field Guide to Application Delivery Systems" 的论文利用此公式事实上,如果想在 Web 站点中嵌入调试模式以利用这一性能等式,可以对所有这些元素自行编写代码.这样做有充分的理由：如果能够定期在浏览器中列出性能等式元素,则很容易就可以检测出存在性能问题的位置.以下一些参数的说明变量定义

      R 响应时间.从用户请求页面(通过单击链接等操作)到整个页面全部呈现在用户计算机中所需的总时间.通常以秒为测量单位. 负载发送到浏览器的字节总数,包括标记和所有资源(例如,CSS、JS 和图像文件等).

      带宽与浏览器之间的传输率.这可能是不对称的,如果给定页面是从多个源生成的,这可能表示多个速度.通常情况下,会加总取一平均值作为单一带宽,单位为字节/秒. AppTurns 给定页面所需的资源文件数.这些资源文件包括 CSS、JS、图像等,还包括浏览器在页面显示过程中检索的任何其他文件.在此等式中,HTML 页面是通过在 AppTurns 表达式之前加上往返时间 (RTT) 单独计算的. RTT 往返所需的时间,与传输的字节无关.对于页面本身,每个请求至少需要耗用一个 RTT.通常以毫秒为测量单位. 并发请求浏览器同时发出的请求资源文件的请求数.默认情况下,Internet Explorer 执行两个并发请求.此设置可以进行调整,但很少这样做. Cs 服务器上的计算时间.这是运行代码、从数据库检索数据以及合成要发送到浏览器的响应所需的时间.测量单位为毫秒.Cc 客户端上的计算时间.这是浏览器在屏幕上实际显示 HTML、执行 JavaScript、实施 CSS 规则等所需的时间.

      RTT(Round-Trip Time): 往返时延,在计算机网络中它也是一个重要的性能指标,它表示从发送端发送数据开始,到发送端收到来自接收端的确使用过LoadRunner的朋友都知道我们能够很容易知道一个业务的吞吐量,AppTurns.对于RTT,并发请求我们能够很容易获得.认(接收端收到数据后便立即发送确认)

      对于业务的吞吐量,R响应时间,AppTurns.宽带,RTT,我们可以通过去时些性能测试工具很容易获得.

      对于Cs和CC在 ASP.NET 页面中,很容易就可以编写代码来记录页面开始执行的准确时间,然后再将其从执行完成时的当时时间中减掉.客户端也是如此；可在 HTML 页面顶部执行一段 JavaScript 来记录开始时间,然后当页面执行完毕并触发了 OnLoad 事件时将其从当时时间中减掉.事实上,如果想在 Web 站点中嵌入调试模式以利用这一性能等式,可以对所有这些元素自行编写代码.这样做有充分的理由：如果能够定期在浏览器中列出性能等式元素,则很容易就可以检测出存在性能问题的位置.例如,假设您的 ASP.NET 应用程序的用户都位于其他洲,而且使用的是低带宽.由于 ping 时间较高 (> 200ms) 而带宽较低 (< 500kbps),所以这些用户非常容易受应用程序总负载和往返次数的影响.这时您必须站在这些用户的角度来审视您的应用程序,因为他们的体验与您的体验截然不同.

Tags: web , 性能

网络技术 | 评论(0) | 引用(0)

ext3,ext4,xfs的性能测试对比

[ 2009/03/11 22:00 | by selboo ]

from:http://www.php-oa.com/2009/03/10/ext3ext4xfs.html

      上周用iozone对ext3,ext4,xfs做了一次全面的测试，不同的块大小,不同的文件大小,读写,重读,写,重写,大块重写之类的性能进行了全面的测试.

      ext4的稳定版本是2.6.28,所以在这个测试时是用的2.6.28.文件的大小分别选择了1G,2G,4G的数据。

      为了不影响测试，不让内存缓存数据，我用的1G内存.下面是4G时的表现

总结，哈哈，很奇怪吧。ext4全面战胜ext3.但xfs全面战胜ext*.呵呵。另外，ext4的格式化比ext3快多了，有提高.但xfs格式化6T,按下回车就完了.

Tags: 性能 , 测试 , ext3 , ext4 , xfs

Linux | 评论(0) | 引用(0)

使用Google的开源TCMalloc库,提高MySQL在高并发情况下的性能

[ 2009/02/28 19:13 | by selboo ]

TCMalloc（Thread-Caching Malloc）是google开发的开源工具──"google-perftools"中的成员。与标准的glibc库的malloc相比，TCMalloc在内存的分配上效率和速度要高得多，可以在很大程度上提高MySQL服务器在高并发情况下的性能，降低系统负载。
为MySQL添加TCMalloc库的安装步骤（Linux环境）：

　　1、64位操作系统请先安装libunwind库，32位操作系统不要安装。libunwind库为基于64位CPU和操作系统的程序提供了基本的堆栈辗转开解功能，其中包括用于输出堆栈跟踪的API、用于以编程方式辗转开解堆栈的API以及支持C++异常处理机制的API。

wget http://download.savannah.gnu.org/releases/libunwind/libunwind-0

阅读全文

Tags: 性能 , google , mysql , 并发

数据库 | 评论(0) | 引用(0)

分页： 3/3

1 2 3

[ 显示模式：摘要 | 列表 ]

性能分析工具汇总

Ext3和Ext4文件系统性能对比

衡量web性能一个性能等式

ext3,ext4,xfs的性能测试对比

使用Google的开源TCMalloc库,提高MySQL在高并发情况下的性能

分类

归档

最新日志

最新评论

其他

关于我

链接

统计

搜索