1、Ch.6集成测试和系统测试集成测试和系统测试2022-11-242 单元测试的定义与进行单元测试的重要性单元测试的定义与进行单元测试的重要性 单元测试的目标与任务单元测试的目标与任务 静态测试技术的运用静态测试技术的运用 动态测试技术的运用动态测试技术的运用 调试与评估调试与评估 单元测试的过程与文档管理单元测试的过程与文档管理 单元测试的常用工具简介单元测试的常用工具简介2022-11-2436.1 系统集成的模式与方法6.2 功能测试6.3 系统测试6.4 压力测试、容量测试和性能测试6.5安全性、可靠性和容错性测试2022-11-244人员安排人员安排测试计划测试计划测试内容测试内容集成
2、模式集成模式测试方法测试方法2022-11-2452022-11-246渐增式测试模式与非渐增式测试模式渐增式测试模式与非渐增式测试模式非渐增式测试模式非渐增式测试模式:先分别测试每个模块,再把所有模块按设计要求放在一起结合成所要的程序,如大棒模式。渐增式测试模式渐增式测试模式:把下一个要测试的模块同已经测试好的模块结合起来进行测试,测试完以后再把下一个应该测试的模块结合进来测试。各自的优缺点各自的优缺点2022-11-247驱动程序驱动程序/驱动模块驱动模块(driver),用以模拟被测模块的上级模块。驱动模块在集成测试中接受测试数据,把相关的数据传送给被测模块,启动被测模块,并打印出相应的
3、结果。桩程序桩程序/桩模块桩模块(stub),),也有人称为存根程序,用以模拟被测模块工作过程中所调用的模块。桩模块由被测模块调用,它们一般只进行很少的数据处理,例如打印入口和返回,以便于检验被测模块与其下级模块的接口2022-11-248自顶向下法的主要优缺点自顶向下法的主要优缺点2022-11-2492022-11-2410自底向上法的主要优缺点自底向上法的主要优缺点2022-11-24112022-11-2412混合法:对软件结构中较上层,使用的是混合法:对软件结构中较上层,使用的是“自顶向下自顶向下”法;对软件结构中法;对软件结构中较下层,使用的是较下层,使用的是“自底向上自底向上”法
4、,两者相结合法,两者相结合 2022-11-2413采用大棒集成方法采用大棒集成方法,先是对每一个子模块进行测试(单元测试阶段),先是对每一个子模块进行测试(单元测试阶段),然后将所有模块一次性的全部集成起来进行集成测试然后将所有模块一次性的全部集成起来进行集成测试。因为所有的模块一次集成的,所以很难确定出错的真正位置、所在的模块、错误的原因。这种方法并不推荐在任何系统中使用,适合在规模较小的应用系统中使用。2022-11-2414采用三明治方法的优点是:它将自顶向下和自底向上的集成方法有机地结合起来,不需要写桩程序因为在测试初自底向上集成已经验证了底层模块的正确性。采用这种方法的主要缺点是:
5、在真正集成之前每一个独立的模块没有完全测试过。2022-11-2415改进的三明治集成方法,不仅自两头向中间集成,而且保证每个模改进的三明治集成方法,不仅自两头向中间集成,而且保证每个模块得到单独的测试,使测试进行得比较彻底块得到单独的测试,使测试进行得比较彻底。自底向上自底向上 自顶向下自顶向下 混合策略混合策略大棒大棒三明治三明治改进三明治改进三明治集成集成早早早早早早晚晚早早早早基本程序能工作时间基本程序能工作时间晚晚早早早早晚晚早早早早需要驱动程序需要驱动程序是是否否是是是是是是是是需要桩程序需要桩程序否否是是是是是是是是是是工作并行性工作并行性中中低低中中高高中中高高特殊路径测试特殊
6、路径测试容易容易难难容易容易容易容易中等中等容易容易计划与控制计划与控制容易容易难难难难容易容易难难难难2022-11-24162022-11-2417目的和内容目的和内容 p 程序安装、启动正常,有相应的提示框、错误提示等p 每项功能符合实际要求p 系统的界面清晰、美观p 菜单、按钮操作正常、灵活,能处理一些异常操作p 能接受正确的数据输入,对异常数据的输入有提示、容错处理等p 数据的输出结果准确,格式清晰,可以保存和读取p 功能逻辑清楚,符合使用者习惯p 系统的各种状态按照业务流程而变化,并保持稳定p 支持各种应用的环境p 能配合多种硬件周边设备p 软件升级后,能继续支持旧版本的数据p 与
7、外部应用系统的接口有效 等价类划分法等价类划分法 边界值分析法边界值分析法 错误推测法错误推测法 因果图法因果图法 组合分析法组合分析法2022-11-2418我要测试所我要测试所有的功能有的功能2022-11-2419划分好等价类测试:防止遗漏测试案例。划分好等价类测试:防止遗漏测试案例。2022-11-2420例子:排序程序,边界条件有:p 序列为空;p 序列仅有一个数据;p 序列为满,用猜错法补充一下测试用例;p 序列已经按要求排好序;p 序列的顺序与要求的顺序恰好相反;p 序列中的所有数据全部相等。因为错误最容易发生在边界值附近,所以边界值分析法对于多变量函数的测试很有效,尤其是对于像
8、C/C+数据类型要求不是很严格的语言有利。2022-11-2421这个错误到底在哪?这个错误到底在哪?2022-11-24222022-11-2423混凝土强度为什么不足?混凝土强度为什么不足?2022-11-2424 组合分析是一种基于每对参数组合的测试技术,主要考虑参数之间的影响是主要的错误来源和大多数的错误起源于简单的参数组合。在产品汉化过在产品汉化过程中哪个组合程中哪个组合出错了?出错了?p压力测试压力测试(Stress test)p容量测试容量测试(Capacity test)p性能测试性能测试(Performance test)p安全测试安全测试(Security test)p容错
9、测试容错测试(Recovery test)2022-11-2425回归测试的目的回归测试的目的 p 所做的修改达到了预定的目的,如错误得到了改正,新功能得到了实现,能够适应新的运行环境等;p 不影响软件原有功能的正确性。回归测试的方法回归测试的方法p 再测试全部用例 p 基于风险选择测试 p 基于操作剖面选择测试 p 再测试修改的部分 2022-11-24262000回归测试的组织和实施回归测试的组织和实施2022-11-24272022-11-2428 压力测试、容量测试和性能测试的测试目的虽然有所不同,但其压力测试、容量测试和性能测试的测试目的虽然有所不同,但其手段和方法在一定程度上比较相
10、似,通常会使用特定的测试工具,来手段和方法在一定程度上比较相似,通常会使用特定的测试工具,来模拟超常的数据量、负载等,监测系统的各项性能指标,如模拟超常的数据量、负载等,监测系统的各项性能指标,如CPUCPU和内和内存的使用情况、响应时间、数据传输量等。存的使用情况、响应时间、数据传输量等。一定要设法破坏一定要设法破坏它它!2022-11-24290510152025301X51X1001X5001X7001X90010X5HTTPTCPHTTP&TCP看看在各种情况下看看在各种情况下CPU使用的效率使用的效率性能测试的目的:性能测试的目的:为了验证系统是否达到用户提出的性能指标,同时发现系统
11、中存在的性能瓶颈,起到优化系统的目的。性能测试指标的来源:性能测试指标的来源:用户对各项指标提出的明确需求;如果用户没有提出性能指标则根据用户需求、测试设计人员的经验来设计各项测试指标。(需求+经验)主要的性能指标:主要的性能指标:服务器的各项指标(CPU、内存占用率等)、后台数据库的各项指标、网络流量、响应时间2022-11-2430p测试环境应尽量与产品运行环境保持一致,应单独运行尽量避免与其他软件同时使用。p性能测试一般使用测试工具和测试人员编制测试脚本来完成。p性能测试的重点在于前期数据的设计与后期数据的分析。p性能测试的用例主要涉及到整个系统架构的问题,所以测试用例一旦生成,改动一般
12、不大,所以做性能测试的重复使用率一般比较高。2022-11-2431两种负载类型两种负载类型“flat”测试ramp-up测试对于企业级的系统,性能测试的方法主要有:基准测试性能规划测试渗入测试峰谷测试2022-11-2432“FlatFlat”测试测试:对于一次给定的测试,应该取响应时间和吞吐量的平均值。精确地获得这些值的唯一方法是一次一次加载所有的用户加载所有的用户,然后在预定的时间段内持续时间段内持续运行。2022-11-2433虚拟用户的数量虚拟用户的数量 Ramp-upRamp-up测试测试:用户是交错上升的(每几秒增加一些新用户)。ramp-up测试不能产生精确和可重现的平均值,这
13、是因为由于用户的增加是每次一部分,系统的负载在不断地变化。其优点是,可以看出随着系统负载的改变,测量值是如何改变的据此选择要运行的flat测试的范围。2022-11-24342022-11-2435Page Downloaded per Second系统吞吐量系统吞吐量 2022-11-2436Resource Usage同时与服务器通信的连接(或虚拟用户)的数目,每个虚拟用户请求之间间隔时间的长短。2022-11-2437随着服务器上负载的增加,吞吐量会不断攀升,直到到达一个点,并在这个点上稳定下来基准测试的关键是要获得一致的、可再现的结果。基准测试的关键是要获得一致的、可再现的结果。假定测
14、试的两个指标是服务器的响应时间响应时间和吞吐量吞吐量,会受到负载的影响。而负载又受两个因素影响:与服务器通信的用户越多,负载就越大。同样,请求之间间隔时间越短,负载也越大。这两个因素的不同组合会产生不同的服务器负载等级.在某一点上,执行队列开始增长,因为服务器上所有的线程都已投入使用,传入的请求不再被立即处理,而是放入队列中,当线程空闲时再处理。2022-11-2438当系统达到饱和点,服务器吞吐量保持稳定后,就达到了给定条件下的系统上限。但是,随着服务器负载的继续增长,响应时间也随之延长,虽然吞吐量保持稳定。队列产生队列产生响应时间响应时间资源使用资源使用将系统置于相同的高负载下,将请求之间
15、间隔时间设为零。这样服务器会立即超载,并开始构建执行队列。如果请求(虚拟用户)数保持一致,基准测试的结果会非常精确 flat运行是获得基准测试数据的理想模式2022-11-2439两个事务的响应时间曲线两个事务的响应时间曲线性能规划类型的测试其目标是找出在特定的环境下,给定应用程序的性能可以达到何种程度。例如,如果要以5秒或更少的响应时间支持8,000个当前用户,需要多少个服务器?要确定系统的容量,需要考虑几个因素:用户中有多少是并发与服务器通信的。每个用户的请求间时间间隔是多少。2022-11-2440如何加载用户以模拟负载状态?如何加载用户以模拟负载状态?最好的方法是模拟高峰时间用户与服务
16、器通信的状况。如果用户负载状态是在一段时间内逐步达到的,选择ramp-up测试,每隔几秒增加x个用户;如果所有用户是在一个非常短的时间内同时与系统通信,就应该使用flat测试,将所有的用户同时加载到服务器 什么是确定容量的最好方法?什么是确定容量的最好方法?结合两种负载类型的优点,并运行一系列的测试 如:首先使用ramp-up测试确定系统支持的用户范围该范围内不同的并发用户负载进行一系列的flat测试,更精确地确定系统的容量。2022-11-2441渗入测试是一种比较简单的性能测试。渗入测试所需时间较长,它使用固定数目的并发用户测试系统的总体健壮性。这些测试将会通过内存泄漏、增加的垃圾收集(G
17、C)或系统的其他问题,显示因长时间运行而出现的任何性能降低。建议运行两次测试一次使用较低的用户负载(要在系统容量之下,以便不会出现执行队列),一次使用较高的负载(以便出现积极的执行队列)。2022-11-2442兼有容量规划ramp-up测试和渗入测试的特征,目标是确定从高负载(例如系统高峰时间的负载)恢复、转为几乎空闲、然后再攀升到高负载、再降低的能力。2022-11-24432022-11-2444评估系统评估系统制定测试资产制定测试资产执行基线执行基线&基准测试基准测试分析结果分析结果验证需求验证需求完完 成成调试系统调试系统识别探索性测试识别探索性测试非决定性结果非决定性结果不符合标准
18、不符合标准调试之后重新调试之后重新进行基准测试进行基准测试开发探索开发探索性的测试性的测试符合所符合所有的标有的标准准Failover Failover 测试测试:故障转移故障转移(Failover)(Failover)和故障恢复和故障恢复(Failback).(Failback).服务器的服务器的FailoverFailover测试的目的测试的目的:检查系统是否具备某种灾难性恢复的手段.当系统局部或全部出错时,能否在指定时间内修正错误.具有良好故障恢复的系统,当遇到软件原因或无法克服的自然原因时,能够进行故障的转移与恢复.使用户最低限度的感受到故障的发生.在服务器的在服务器的Failover
19、测试中测试中,将包括多种情况将包括多种情况,如如:客户机或服务器掉电;客户机与服务器网络中断;服务器相关的程序CRASH;系统中全部或部分CORE SERVER出现掉电/网络中断情况.2022-11-2445p将测试系统全部对象描绘出来-系统结构图p对图中的所有可能发生的故障点设计测试用例.2022-11-2446简单的服务器构造简单的服务器构造2022-11-2447在这个构造中,当其中一台应用服务器出现故障,连接此应用服务器的 两个web服务器将不再获得从负载平衡服务器上请求,这样,所有的负载都会传递到剩余的两台web服务器,见下图:2022-11-24482022-11-24492022
20、-11-2450在一种需要反常(如长时间的峰值)数量、频率或资源的方式下,执行可重复的负载测试,以检查程序对异常情况的抵抗能力,找出性能瓶颈找出性能瓶颈。从本质上来说,测试者是想要破坏程序。步骤:步骤:测试压力估算测试压力估算 测试环境准备测试环境准备 问题的分析问题的分析 累积效应累积效应 2022-11-2451试试这个游戏站点的承受力试试这个游戏站点的承受力 并发性能测试(重点)并发性能测试(重点)疲劳强度测试疲劳强度测试 大数据量测试大数据量测试 2022-11-2452考察客户端应用的性能,测试的入口是客户端并发性能测试的过程,是一个负载测试和压力测试的过程。即逐渐增加并发虚拟用户数
21、负载,直到系统的瓶颈或者不能接收的性能点,通过综合分析交易执行指标、资源监控指标等来确定系统并发性能的过程。并发性能测试是负载压力测试中的重要内容。ramp-upramp-up测试测试 2022-11-2453 通常是采用系统稳定运行情况下能够支持的最大并发用户数或者日常运行用户数,持续执行一段时间业务,通过综合分析交易执行指标和资源监控指标来确定系统处理最大工作量强度性能的过程。疲劳强度测试案例制定的原则是保证系统长期不间断运行的业务量,并且应该尽量去满足该条件。Flat测试测试2022-11-2454独立的数据量测试独立的数据量测试 针对某些系统存储、传输、统计、查询等业务进行大数据量测试
22、 综合数据量测试综合数据量测试 和压力性能测试、负载性能测试、并发性能测试、疲劳性能测试相结合的综合测试方案 2022-11-24552022-11-2456 容量测试目的是通过测试预先分析出反映软件系统应用特征的某项指标的极限值(如最大并发用户数、数据库记录数等),系统在其极限值状态下还能保持主要功能正常运行。容量测试还将确定测试对象在给定时间内能够持续处理的最大负载或工作量。查看现有系统中性能与负载间的关系,并确定出现响应时间显著延长的位置“拐点”。可以确定是否需要增加资源以支持额外的用户。2022-11-2457交易的响应时间交易的响应时间如果很长,远远超过系统性能需求,表示耗费CPU的
23、数据库操作,例如排序,执行aggregate functions(例如sum、min、max、count)等较多,可考虑是否有索引以及索引建立的是否合理;尽量使用简单的表联接;水平分割大表格等方法来降低该值。2022-11-2458分段排除错误。测试工具可以模拟不同的虚拟用户来单独访问Web服务器、应用服务器和数据库服务器,这样,就可以在Web端测出的响应时间减去以上各个分段测出的时间就可以知道瓶颈在哪并着手调优。2022-11-2459UNIX资源监控(NT操作系统同理)中指标内存页交换速内存页交换速率率(Paging rate),如果该值偶尔走高,表明当时有线程竞争内存。如果持续很高,则内
24、存可能是瓶颈。也可能是内存访问命中率低。“Swap in rate”和“Swap out rate”也有类似的解释。2022-11-2460UNIX资源监控(NT操作系统同理)中指标CPU占用率占用率(CPU utilization),如果该值持续超过95%,表明瓶颈是CPU。可以考虑增加一个处理器或换一个更快的处理器。合理使用的范围在60%至70%。2022-11-2461UNIX资源监控(NT操作系统同理)中指标磁盘交换率磁盘交换率(Disk rate),如果该参数值一直很高,表明I/O有问题。可考虑更换更快的硬盘系统、重新部署业务逻辑等,另外设置Tempdb in RAM,减低max a
25、sync IO,max lazy writer IO等措施都会降低该值。2022-11-2462SQLServer资源监控中指标缓存点击率缓存点击率(Cache Hit Ratio),该值越高越好。如果持续低于80%,应考虑增加内存。注意该参数值是从SQL Server启动后,就一直累加记数,所以运行经过一段时间后,该值将不能反映系统当前值。2022-11-24632022-11-2464 安全性测试、可靠性测试和容错性测试的测试目的不同,其手段和方法也不同,但都属于系统测试的范畴,有一定的联系,如软件可靠性要求通常包括了安全性的软件可靠性要求通常包括了安全性的要求要求。安全性测试、可靠性测试
26、和容错性测试的技术比较深、实施比较难,但在应用系统中越来越重要。2022-11-2465根据根据ISO 8402的定义,安全性是的定义,安全性是“使伤害或损害的风使伤害或损害的风险限制在可接受的水平内险限制在可接受的水平内”。2022-11-2466安全性测试是检查系统对非法侵入的防范能力。安全测试期间,测试人员假扮非法入侵者,采用各种办法试图突破防线。例如:p 想方设法截取或破译口令;p 专门开发软件来破坏系统的保护机制;p 故意导致系统失败,企图趁恢复之机非法进入;p 试图通过浏览非保密数据,推导所需信息等等。理论上讲,只要有足够的时间和资源,没有不可进入的系统。因此系统安全设计的准则是,
27、使非法侵入的代价超过被保护信息的价值,此时非法侵入者已无利可图。2022-11-2467可靠性(Reliability)是产品在规定的条件下和规定的时间内完成规定功能的能力,它的概率度量称为可靠度。软件可靠性是软件系统的固有特性之一,它表明了一个软件系统按照用户的要求和设计的目标,执行其功能的可靠程度。软件可靠性与软件缺陷有关,也与系统输入和系统使用有关。理论上说,可靠的软件系统应该是正确、完整、一致和健壮的。l规定的时间规定的时间 l规定的环境条件规定的环境条件l规定的功能规定的功能2022-11-2468可靠性测试结果的评估可靠性测试结果的评估成熟性度量可以通过错误发现率DDP(Defec
28、t Detection Percentage)来表现。在测试中查找出来的错误越多,实际应用中出错的机会就越小,软件也就越成熟。DDP=测试发现的错误数量测试发现的错误数量/已知的全部错误数量已知的全部错误数量已知的全部错误数量是测试已发现的错误数量加上可能会发现的错误数量之和。2022-11-24692022-11-2470容错性测试是检查软件在异常条件下自身是否具有防护性的措施或者某种灾难性恢复的手段。如当系统出错时,能否在指定时间间隔内修正错误并重新启动系统。容错性测试包括两个方面:输入异常数据或进行异常操作,以检验系统的保护性输入异常数据或进行异常操作,以检验系统的保护性。如果系统的容错
29、性好的话,系统只给出提示或内部消化掉,而不会导致系统出错甚至崩溃。灾难恢复性测试灾难恢复性测试。通过各种手段,让软件强制性地发生故障,然后验证系统已保存的用户数据是否丢失、系统和数据是否能尽快恢复。质量维度质量维度 测试类型测试类型 可靠性可靠性完整性测试:完整性测试:侧重于评估测试对象的强壮性(防止失败的能力),语言、语法的技术兼容性以及资源利用率的测试。该测试针对不同的测试对象实施和执行,包括单元和已集成单元。结构测试:结构测试:侧重于评估测试目标是否符合其设计和构造的测试。通常对基于 Web 的应用程序执行该测试,以确保所有链接都已连接、显示正确的内容以及没有孤立的内容。功能功能配置测试
30、:配置测试:侧重于确保测试对象在不同的硬件和/或软件配置上按预期运行的测试。该测试还可以作为系统性能测试来实施。功能测试:功能测试:侧重于核实测试对象按计划运行,提供需求的服务、方法或用例的测试。该测试针对不同的测试对象实施和执行,包括单元、已集成单元、应用程序和系统。安装测试:安装测试:侧重于确保测试对象在不同的硬件和/或软件配置上,以及在不同的条件下(磁盘空间不足或电源中断)按预期安装的测试。该测试针对不同的应用程序和系统实施和执行。安全测试:安全测试:侧重于确保只有预期的主角才可以访问测试对象、数据(或系统)的测试。该测试针对多种测试对象实施和执行。2022-11-2471质量维度质量维
31、度 测试类型测试类型 功能功能容量测试:容量测试:侧重于核实测试对象对于大量数据(输入和输出或驻留在数据库内)的处理能力的测试。容量测试包括多种测试策略,如创建返回整个数据库内容的查询;或者对查询设置很多限制,以至不返回数据;或者返回每个字段中最大数据量的数据条目。性能性能 基准测试:基准测试:一种性能测试,该测试将比较(新的或未知的)测试对象与已知的参照负载和系统的性能。竞争测试:竞争测试:侧重于核实测试对象对于多个主角对相同资源(数据记录、内存等)的请求的处理是否可以接受的测试。负载测试:负载测试:一种性能测试,用于在测试的系统保持不变的情况下,核实和评估系统在不同负载下操作极限的可接受性。评测包括负载和响应时间的特征。如果系统结合了分布式构架或负载平衡方法,将执行特殊的测试以确保分布和负载平衡方法能够正常工作。性能曲线:性能曲线:在该测试中,将监测测试对象的计时配置文件,包括执行流、数据访问、函数和系统调用,以确定并解决性能瓶颈和低效流程。强度测试:强度测试:一种性能测试,侧重于确保系统可在遇到异常条件时按预期运行。系统面对的工作强度可以包括过大的工作量、不充足的内存、不可用的服务/硬件或过低的共享资源。2022-11-24722022-11-2473