1、联想集团有限公司联想集团有限公司 2004年年5月月是统计的软件包是统计的软件包为数据分析提供统计工具为数据分析提供统计工具进行进行 Six SigmaSix Sigma 活动时需要的统计工具活动时需要的统计工具什么是什么是MINITABMINITAB?现国内使用的很多统计分析用软件SAS,SPSS,MINITAB等。MINITAB原来是为了方便基础统计学的学生1972年在美国的宾西法尼亚州立大学开发的。但后来为了在工学,社会学,经营学等资料的分析在研究方面广泛使用。且GE在6-SIGMA活动中作为分析工具成功地进行6-SIGMA后最近成为6-SIGMA活动必需的分析工具。MINITAB的基本
2、数据的输入,输出方式与EXCEL相似,因此将复杂的统计分析简单化,可容易理解统计意义。且MINITAB作成的所有图表与文字与EXCEL相似并可互换,可使用复制及粘贴功能,在制作PPT时也可灵活使用。2. Minitab 2. Minitab 界面界面 首先在首先在 worksheet worksheet 上输入如下上输入如下 data.data.在Minitab menu中利用取出随机数据的功能在 worksheet的第一列(column)命名为 x后,如下输入15个数据.CalcRandom DataNormal如下形成如下形成 worksheet ,worksheet ,因为是随机数据有可
3、能与下列数据不同因为是随机数据有可能与下列数据不同画一个画一个GraphGraphMenu中如下画成如下画成 HistogramHistogram(因为是随机数据形状各异(因为是随机数据形状各异) )为了看为了看MinitabMinitab的的 各个各个window window 如下编辑如下编辑 WindowWindowMenu 中 WindowTileSESSIONSESSIONWINDOWWINDOW数据数据WINDOWWINDOW工具栏工具栏菜单菜单打开PROJECTPROJECT保存打印WORKSHEET剪切复制粘贴恢复以前brushed 行下面 brushed行过去对话框SESSI
4、ON WINDOW现数据WORKSHEETHELP插入插入行插入列列移动删除WORKSHEET管理图表管理关闭图表取消工具栏在数据 WINDOW击活时显示数据数据WINDOWWINDOW打印SESSION WINDOW前命令语后命令语查找查找下一个SESSIONSESSION WINDOW WINDOW工具栏在SESSION WINDOW击活时显示;也有几个是例外 图表图表WINDOWWINDOW打印图表看的方式编辑方式Brush 方式工具栏在图表WINDOW击活时显示,也有几个例外打开空打开空WORKSHEETWORKSHEET后在数据后在数据WINDOWWINDOW输入数据输入数据. .n
5、 WORKSHEETWORKSHEET非电子数据表非电子数据表n COLUMNCOLUMN题目在最上行题目在最上行n MinitabMinitab只承认列(只承认列(COLUMNCOLUMN)数据)数据, ,行数据不承认行数据不承认数据如果在数据如果在excelexcel等其他软件时可复制数据后粘贴到等其他软件时可复制数据后粘贴到MinitabMinitab n 确认是否是确认是否是COLUMNCOLUMN数据,才能将其它软件中的数据拷贝到数据,才能将其它软件中的数据拷贝到MinitabMinitab数据数据WORKSHEETWORKSHEET中中n 如果如果COLUMNCOLUMN有题目时在
6、有题目时在WORKSHEETWORKSHEET的最上行加入题目的最上行加入题目ExcelExcel文件变为文件变为 Minitab worksheetMinitab worksheetProject Project 保存保存File选择Save ProjectWorksheet Worksheet 保存保存Menu中 FileSave Current Worksheet利用利用ManipManip menu menu进行数据管理进行数据管理1. Stacking: 两个以上的列(column)变为一个列(column)时Menu中 ManipUnstack Columns数据类型转换及行列转换
7、我们有以下数据,可以用前粘贴方式将其粘贴到MINITAB中 我们在前面讲过,MINITAB只能对列数据进行分析,但现在是行数据,故我们进行行列转换粘贴后如下;图打开菜单:MANIPtranspose cilumns 选中含有数据的列,此例中为C2-C10,点“SELECT”,然后将其存入一个新工作表中结果如下图 我们看到,数据列C2标志为C2-T,即表示此列是文本,而不是数据,故我们需对数据格式进行转换MANIP CHANGE DATA TYPETEXT TO NUMBER要转化的列保存列 出现*号表示没有转化成功,因此,我们在向MINITAB中粘贴数据时,避免百分数及逗号等(可在EXCEL中
8、先转换再粘贴),如果粘贴过来后变成字符时,可用此方法转换CAL菜单的用法 在EXCEL中可以计算各种公式,而MINITAB同样也可实现此功能,并且一些计算更专业化CALCcalculator我们要计算C1列加C2列的值,并将结果存入C3此处存入保存列C3此处输入C1+C2,键入或先左框中列号及运算符均可结果此处还有其他运算,如求绝对值,求列方差等计算C1的统计量可以计算出所有的相关统计量,包括平均值、方差、最大值、最小值等,结果在SESSION窗口中计算每一行的统计量可以计算各行的统计量,并将结果存在指定列中各行统计量结果 CALCULATOR中可以实现很多计算功能,大家在以后使用时多练习应用
9、!MinitabMinitab利用列数据(利用列数据(COLUMN)COLUMN)制作图表制作图表. .图表可显示中心倾向图表可显示中心倾向, ,散布散布, ,趋势趋势, ,PROCESSPROCESS变化等信息内容变化等信息内容. .图表可提供与图表可提供与TEAMTEAM成员间易于沟通的方法成员间易于沟通的方法好的图胜过百句话!好的图胜过百句话!Worksheet Worksheet FileOpen Worksheet (Data file: Thickness.mtw)C1, C2 里各输入产品 的厚度数据, 利用 stacking 将C1,C2的数据得到C3的数据. C1是机器1生产
10、产品厚度, C2是机器2生产的产品厚度数据.时间列时间列Plot( Time series plot)Plot( Time series plot)Time series plotTime series plot是以是以 x x 轴为时间时可看出按时间数据是否有变轴为时间时可看出按时间数据是否有变化化? ?GraphTime Series plot假定C3的厚度数据是按照时间连续测定的时间以分(minute)为单位Graph Graph 题目及趋势线追加题目及趋势线追加为了确认按照时间是否存在倾向或周期性在这里选择 Lowess.PlotPlotPlotPlot是表示是表示X X、Y Y相互关
11、系的图表相互关系的图表GraphPlot可看出Thickness1 和Thickness2 间的相关关系.在这个图表上看不出明显的相关关系使用使用BrushBrush功能功能Brush功能可以对图表中关心的数据进行标识,可容易看出数据所在的行号Tool bar中选择这个符号选择关心的数据相应的行号显示在 Brushing box柱状图(柱状图(HistogramHistogram)表示数据的频率图表表示数据的频率图表, ,让人能一目了然看到数据的分布情况让人能一目了然看到数据的分布情况Graph HistogramBoxplotBoxplotGraph Boxplot机器1生产的产品厚度大,散
12、布也大BoxplotBoxplot的参数意义的参数意义1258596061626364RoundLength最大观测值最大观测值3 3四分位以上四分位以上 (1.5(1.5* *IQR)IQR)内内最小观测值最小观测值1 1四分位以下四分位以下 (1.5(1.5* *IQR)IQR)内内异常值异常值中央值中央值3 3四分位数四分位数1 1四分位数四分位数Inter-QuartilInter-Quartile Range(IQR)e Range(IQR)1.51.5* *IQRIQR* *1.51.5* *IQR IQR 下下 1 1四分位数四分位数或或 1.51.5* *IQR IQR 上上
13、3 3四分位数四分位数利用利用20/8020/80法则,根据出现的频率找出主要问题时使用的图表法则,根据出现的频率找出主要问题时使用的图表. .项目选定项目选定时决定应该先解决什么问题是较常用时决定应该先解决什么问题是较常用. . Minitab munu 中 fileOpen WorksheetDefect(Defect(缺陷缺陷) )种类保存在一个种类保存在一个columncolumn时时Minitab 中 StatQuality ToolsPareto Chart缺陷的种类与个数在不同的各个列时缺陷的种类与个数在不同的各个列时Cause and Effect Diagram(Fishbo
14、ne)Cause and Effect Diagram(Fishbone)利用利用MinitabMinitab的的 工具可画出工具可画出 Fishbone diagram,Fishbone diagram,使用于使用于 BrainstormingBrainstormingWorksheet 例: Exh_QC.mtw按照列的形式在Man, Machine,输入相应的项目StatQuality ToolsCause-and-Effect5. 5. 使用使用MinitabMinitab的案例的案例1.项目: 在某一大学研究室为了调查土壤对植物生长的影响进行了一个项目.项目实施的方法是在两种土壤(T
15、ype A, B)中栽培植物,三年后测定植物茎的直径(Diameter),高度(Height),重量(Weight). 利用获得的数据分析两种土壤对植物栽培有什么影响,分析直径、高度与重量有怎样的关系. Step 1 : Step 1 : 打开打开Data worksheetData worksheetFileOpen WorksheetPoplar1.mtw3个列中各保存了 15个Diameter, Height, Weight 数据Step 2 : Step 2 : 利用键盘输入数据利用键盘输入数据已输入的数据之外如果还有五个数据时可利用键盘在五个行再输入追加的数据Step 3: Step
16、 3: 输入输入Patterned dataPatterned data输入的data有一定的规律时可利用 minitab的工具生成数据.在这里前10个数据输入为type1, 后10个数据为type2. 首先c4命名为指定输入的列开始值(这里是 1)终止值(这里是 2)步长(这里是 1)每个值的反复次数(这里是 10)对全体反复次数(这里是 1)CalcMake Patterned DataSimple Set of NumbersType 1反复10次Type 2反复10次总20个的 Diameter, Height, Weight 数据及分别对应的SITE表示为1,2Step 4: Pro
17、ject Step 4: Project 保存保存Minitab中 Project进行应随时保存.FileSave ProjectStep 5: Step 5: 基础统计分析基础统计分析(Descriptive Statistics) (Descriptive Statistics) 计算计算Minitab提供多种统计工具.在这里首先将基础统计量显示为 table,然后通过 Boxplot进行简单的图表分析.分析对如下基础统计量的结果 table 生成在 session window.1.N: data个数2.Mean: 平均值3.Median: 中间值4.TrMean: 删除高、低5%后的数
18、据平均5.StDev: 标准偏差6.SE Mean: StDev/sqrt(N)7.Q1: 25% Q3: 75% Minimum: 最小值 Maximum: 最大值StatBasic StatisticsDisplay Descriptive Statistics输入变量(这里是 Diameter, Height, Weight)输入变量的标识(这里是 Site)选择Graph后点击BoxplotSite 1的 Diameter 统计量Site 2的Weight 统计量对Site1、Site2的Diameter, Height, weight的 Boxplot 比较大体上可看出 site 2
19、的中间值大于 site 1Step 6 : MinitabStep 6 : Minitab上的计算上的计算Minitab提供计算功能.在这里将新的列命名为(D2H)时DIAMETER的平方*长度后得出的值输入到这里CalcCalculatorStep 7:Step 7:图表分析图表分析利用图表分析 可以找出 D2H和 weight间的相关关系GraphPlot这个图表可看出 D2H与 Weight间有强的相关关系. 且发现有一个与相关关系相距较远的异常点.分析阶段将分析这种异常点的原因后再进行分析.Step 8 : Step 8 : 数值分析数值分析图表中显示的 D2H和Weight的关系有必
20、要进行定量分析,在这里求显示相关关系的方程式.StatRegressionRegression为了知道相关关系在输出值(Response)输入Weight,在输入变量(Predictor)输入D2H后构成相关关系式.从这个关系式可连续表示 Weight和 D2H的关系对这里分析内容的说明将在 Analyze阶段详细进行1.1. 统计学介绍统计学介绍2.2. 概率分布概率分布 - - 二项分布二项分布 - - 帕松分布帕松分布 - - 正态分布正态分布什么是母体什么是母体? 母体 - 代表代表全部全部对象对象。 一个母体中的元素数量用一个母体中的元素数量用N来表示来表示举例举例 - 2003年年
21、6月在北京厂生产的所有商用台式电脑月在北京厂生产的所有商用台式电脑 它构成一个我们它构成一个我们感兴趣感兴趣或或关心关心的的特定的集合特定的集合。在这个世界上,并不是每个人都如此!母体与样本母体与样本抽样观察少数观察少数 . . . 以估计以估计总体总体母体与样本母体与样本样本样本-代表代表母体的一个子集。母体的一个子集。样本的元素数量用样本的元素数量用n 来表示来表示举例举例 - 2003年年6月在北京厂生产的所有开天台式电脑月在北京厂生产的所有开天台式电脑母体与样本母体与样本母体母体样本样本 如果能够正确计算母体的特征时如果能够正确计算母体的特征时, ,计算母体特性计算母体特性; ; 如果
22、难于计算母体的情况下,用样本计算出的统计量推定如果难于计算母体的情况下,用样本计算出的统计量推定母体特征。母体特征。 母体的特性:母数母体的特性:母数 均值均值 方差方差 2 2 标准差标准差 样本的特性:统计量样本的特性:统计量 均值均值 x-barx-bar 方差方差 S S2 2 样本标准差样本标准差 S S统计分析是找出分布具有的特性,并将其特性用数字表示。q 分布的特性集中化倾向(Central Tendency)(算术平均, 中值, 最频数) - 显示数据资料集中的位置. 分散度(Scatter, Spreadness) (范围,分散,标准偏差) - 数据资料以算术平均为中心分散的
23、程度 非对称度(Shape) - 数据资料向哪一方向倾斜? 最频数(Mode) 最频数是数据资料的分布中发生频率最多的值 中央值(Median) 由数值形成的资料按大小顺序排序时在中间位置的值 1)数据个数为奇数时 : 中间的资料 2)数据个数为偶数时 : (中间两个资料的和)/2 算术平均 母体的平均 标本的平均 = = X1 + X2 + X3 + + Xn NXi NX = = X1 + X2 + X3 + + Xn nXi n 范围(Range) 数据资料中最大值和最小值的差异 分散(Variance) 和标准偏差(Standard Deviation) 母集团的分散 母集团的标准偏差
24、 标本的分散 标本的标准偏差 2 = ( Xi X )2 N = ( Xi X )2 NS2 = ( Xi X )2 n-1S = ( Xi X )2 n-1特性值特性值母数母数统计量统计量个数个数 N N n n平均平均 X X分散分散 2 2 s s2 2标准偏差标准偏差 s s相关系数相关系数 r r回归系数回归系数 , , a, b a, b误差误差 e e2. 2. 概率分布概率分布概率分布是事件发生的概率分布情况演概率分布是事件发生的概率分布情况演变成数据模型,使之成为质量管理及变成数据模型,使之成为质量管理及 6 6 Sigma Sigma 活动开展的基本条件。活动开展的基本条件
25、。掷硬币时出现正面与反面的概率是相互独立的概率分布掷硬币时出现正面与反面的概率是相互独立的概率分布二项分布需要满足下列条件二项分布需要满足下列条件1)1) 贝鲁利实验贝鲁利实验: : 实验的结果只存在两种可能性实验的结果只存在两种可能性 如如) ) 良品,不良品良品,不良品. .2) 2) 在同一条件下进行实验在同一条件下进行实验3) 3) 各个实验是相互独立的,即:前面试验结果不影响后面试验结果各个实验是相互独立的,即:前面试验结果不影响后面试验结果4) 4) 对每个实验结果的概率是相同的对每个实验结果的概率是相同的. .二项分布的案例二项分布的案例 产线一天生产线一天生 产产1000100
26、0台台PCPC,平均不良率为,平均不良率为1%1%。QCQC人员在每个小时随机地抽取人员在每个小时随机地抽取5050个样个样品选出不良品。此时发现一台以下不良品的概率是多少?品选出不良品。此时发现一台以下不良品的概率是多少? 发现一台以下不良品的概率是发现一台不良发现一台以下不良品的概率是发现一台不良PCPC的概率加上一台也没发现的概率的概率加上一台也没发现的概率首先求一台不良也发现不了的概率首先求一台不良也发现不了的概率CalcProbability DistributionsBinomialCalcProbability DistributionsBinomial先求一台不良也没有的概率先
27、求一台不良也没有的概率二项分布概率二项分布概率累计概率累计概率检查个数检查个数( (这里是这里是50)50)成功概率成功概率( (这里不良率这里不良率 1%)1%)DataData在在WorkSheetWorkSheet内时内时DataData为常数时为常数时( (这里是这里是 0)0)不良台数为不良台数为0 0时时在在Session window Session window 看结果看结果不良率为不良率为0.010.01时时抽取抽取5050个标本时个标本时一台不良品也没有的一台不良品也没有的概率为概率为0.60500.6050求发现一台不良品的概率求发现一台不良品的概率这时为这时为 1 1结
28、果是结果是 0.30560.3056因此全体概率为因此全体概率为: 0.6050+3056=: 0.6050+3056=0.91060.9106这次看数据在这次看数据在 WorksheetWorksheet 内时的方法内时的方法C1 C1 列命名为列命名为 x x,输入不良台数输入不良台数 (0(0和和1) 1) C2C2命名为命名为 p p ,准备得出答案准备得出答案 CalcProbability DistributionBinomialCalcProbability DistributionBinomial输入不良台数所在列输入不良台数所在列(x)(x)输入记录概率的列输入记录概率的列(
29、p)(p)点击点击OKOK得出不良台数为得出不良台数为0 0时的概率和时的概率和不良台数为不良台数为1 1 时的概率时的概率两个概率相加为答案两个概率相加为答案求累计概率求累计概率选择这里选择这里计算累计概率计算累计概率对二项分布的理解对二项分布的理解二项分布的概率密度函数 P(X=x)=nCxpx(1-p)n-x nCx = ( ) = n!x!(n-x)!nx二项分布的期望值,标准偏差,分散期望值 : = E(X) = np分 散 : 2 = Var(X) = np(1-p) = npq标准偏差: = np(1-p) = npq单位时间或单位空间发生特定事件的发生次数时-钢板,织物等连续物
30、体上平均有 m个缺陷时,随机抽取一定单位检查缺陷时, 出现 x个缺陷时出现的概率遵守帕松分布-单位时间到银行的顾客数,某一地区一天的交通事故数帕松分布的密度函数 P(X=x) = e-m mx x!m : 平均发生次数x : 事件发生次数 帕松分布的特性 -二项分布中 p5时, 转换为正态分布帕松分布的案例帕松分布的案例 钢铁厂生产钢带时缺陷可表示为帕松分布。此时缺陷率为钢铁厂生产钢带时缺陷可表示为帕松分布。此时缺陷率为4 4时,随机抽取一时,随机抽取一个单位检查时缺陷个单位检查时缺陷(defect)(defect)为为2 2个以下的概率是?个以下的概率是? 如二项分布求累计概率如二项分布求累
31、计概率, , minitabminitab中选择帕松分布后求解。即:缺陷为中选择帕松分布后求解。即:缺陷为2 2个,个,1 1个,个,0 0个的概率相加即可。个的概率相加即可。Minitab menuFileNewMinitab Worksheet生成新的生成新的worksheetworksheet,C1C1命名为命名为x x, C2C2为为 p.p.X X里输入缺陷的个数里输入缺陷的个数计算的值准备输入计算的值准备输入 p p里里CalcProbability DistributionPoissonCalcProbability DistributionPoisson1.1. 选择累计概率选
32、择累计概率2.2. 输入平均缺陷输入平均缺陷3.3. 选择选择Input columnInput column 输入输入x, px, p4.4. OKOK缺陷为缺陷为0 0的概率的概率 缺陷为缺陷为0, 1 0, 1 的概率的概率( (累计累计) ) 缺陷为缺陷为0,1,2 0,1,2 的概率的概率( (累计累计) )帕松分布的理解帕松分布的理解1. 1. 帕松分布在质量管理表示单位面积帕松分布在质量管理表示单位面积, ,单位个数单位个数, ,单位时间内的缺陷数单位时间内的缺陷数. . 例)例): :一天发生的交通事故件数等也可表示为此分布一天发生的交通事故件数等也可表示为此分布2. 2. 特
33、别是在特别是在 6 Sigma 6 Sigma 管理时追求的是比不良管理时追求的是比不良(defective)(defective)更注重缺陷更注重缺陷 (defect),(defect),所以此分布会在今后经常用到所以此分布会在今后经常用到3. 3. 此分布的平均和标准偏差在今后此分布的平均和标准偏差在今后C C阶段的管理图作为对阶段的管理图作为对 defectdefect的的 cocontrol chartntrol chart理论根据理论根据 帕松分布 观察帕松分布的概念, 可发现与Unit内分布缺陷( Defect)是同一概念.即 事件的平均发生次数 m成为 dpu. RTY是最终工程
34、没有缺陷的概率,即帕松分布中 x=0的概率 即代入帕松分布式时成立下列式. RTY = e RTY = e- -dpudpu dpudpu = - = -lnln(RTY)(RTY)P(X=x) = e-m mx x!m : 平均发生次数x : 事件发生次数正态分布是在统计应用领域最重要的分布并成为开展正态分布是在统计应用领域最重要的分布并成为开展6 Sigma 6 Sigma 的基本的基本. .正正态分布也可如下表示态分布也可如下表示XN( )XN( ) 2 2 , ,变量变量正态分布正态分布平均平均标准偏差标准偏差即正态分布由即正态分布由平均平均和和标准偏差标准偏差来定义来定义43210-
35、 1- 2- 3- 4以平均为轴对称以平均为轴对称(Symmetric)(Symmetric) 原点在一个位置原点在一个位置( (UnimodalUnimodal) )钟形钟形 (Bell-shaped)(Bell-shaped)43210- 1- 2- 3- 4第一个拐点第一个拐点( (倾斜从减少倾斜从减少到增加的位置到增加的位置, Def, Deflection Point) lection Point) 与与平均间的距离平均间的距离 正态分布的密度函数正态分布的密度函数 - X Probability distributionNormalX X 已知已知X X,求累计概率求累计概率(面积
36、)时(面积)时已知累计概率,已知累计概率, 求求 x x时时MinitabMinitab中计算以中计算以 x x的左边面积为累计概率的左边面积为累计概率正态分布例正态分布例 1 1 某制程对一产品的拉长,我们对拉长的长度进行统计后知道:平均为某制程对一产品的拉长,我们对拉长的长度进行统计后知道:平均为4040, 标准偏差为标准偏差为2. 2. 即:即: N(40,22). 购买此产品时顾客要求拉长长度在购买此产品时顾客要求拉长长度在3535以上以上. . 此制程生产的制品满足顾客此制程生产的制品满足顾客 要求的概率为多少要求的概率为多少? ?解解40402 23535已知这个时已知这个时面积是
37、多少面积是多少? ?N(40,22).Minitab Minitab 中求面积的部分中求面积的部分checkcheck累计概率累计概率 平均是平均是 4040标准偏差是标准偏差是2 2X X 值为值为3535CalcProbability DistributionNormal我们想知道的面积我们想知道的面积( (概率概率) )是是 1-0.0062=0.99381-0.0062=0.9938正态分布例正态分布例 2 2 2 假设某一工艺的质量特性遵守标准正态分布假设某一工艺的质量特性遵守标准正态分布 ( (平均平均=0, =0, 标准偏差标准偏差=1) =1) 不良率为不良率为 1% 1% 时
38、时, z , z 值值(Sigma level) (Sigma level) 是多少是多少? ? 已知累计概率时求已知累计概率时求Z Z值值, ,在在 minitabminitab的的 normal normal 分布中使用分布中使用 inverse cumulative probability.inverse cumulative probability.点击这里点击这里输入输入1-0.01=0.991-0.01=0.99CalcProbability DistributionNormalZ Z 值为值为 2.332.33 XN(10,42)的正态分布中 X为8 X12的概率是? Z = X
39、 - = 12 - 10 4= 0.5, 此时的概率为 0.691510128Z = X - = 8 - 10 4= - 0.5 此时的概率为( 1 - 0.6915)因此 0.6915 - 0.3085 = 0.3829影响制造工程的平均值或分散的原因分为为1)偶然原因和2)异常原因.偶然原因指的是如现场的温度变化等不可管理的因素,异常要因指设备的异常,作业者的失误等因素.如果没有异常原因的影响,只有偶然原因作用时取出的数据必然遵守正态分布.在培训过程中大家也能感觉到利用连续概率分布函数的统计分析中最先观察的是是否正态.就是说正态分布是非常重要的.今后要接触到的 t-分布, F-分丰, 2-分布等是人为制造的概率密度函数.但正态分布是说明自然现象的自然的分布.