1、统计学的世界统计学的世界 让你学会用手中少量数据,对重大问题做出明智的决策。统计概念 数据的产生数据的产生:数据怎么得来,非常重要,这是统计当中影响最大的概念。 数据分析数据分析:你会学到,即使用很简单的方法,也能很睿智地解读数据。 概率概率:利用概率进行思考,可以帮你思考和把无关紧要的东西进行分离。 统计推论统计推论:让你学会用少量的数据,对一个较大的总体做出结论。1. 数据从何而来 来说说数据,个体和变量数据的分类截面数据和时间序列数据截面数据和时间序列数据截面数据(截面数据(cross-sectional data)是指针对不同对象在同一时刻或者几乎同一时间点所收集到的数据。例如: 上海
2、证交所2004年6月1日上午10时整所有股票的价格就是横截面数据时间序列数据时间序列数据(time series data)是指针对同一对象在某个或多个时间段内收集到的数据。例如: “浦发银行”股票在过去一个星期内的所有成交价就是时间序列数据。 总体和样本 观测研究 实验2. 好样本和坏样本 如何产生坏样本 如何产生好样本3. 样本告诉我们什么 从样本到总体 抽样变异 误差界限 置信叙述4.数字合不合理 数据背后的事实是什么数据彼此之间是否相符数据是否好得不像真的算术对不对案例:中国的基尼系数基尼系数(Gini coefficient),是20世纪初意大利经济学家基尼,根据洛伦兹曲线(Lore
3、nz curve)所定义的判断收入分配公平程度的指标。是比例数值,在0和1之间,是国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。低于0.2 收入绝对平均0.2-0.3 收入比较平均0.3-0.4 收入相对合理0.4-0.5 收入差距较大0.5以上 收入差距悬殊 2012年12月初,西南财经大学中国家庭金融调查在京发布的报告显示,2010年中国家庭的基尼系数为0.61,大大高于0.44的全球平均水平。 2013年国家统计局局长马建堂公布了过去十年中国基尼系数,系数导向意义引发关注。中国官方中国官方10年来首次公布年来首次公布2003至至2012年基尼系数年基尼系数 中国全国居民收
4、入的基尼系数: (这些数据合理吗?) 2003年0.479, 2004年0.473, 2005年0.485, 2006年0.487, 2007年0.484, 2008年0.491,然后逐步回落。 2009年0.490, 2010年0.481, 2011年0.477, 2012年0.474。5. 用图形呈现分布 统计表 饼状图与柱状图直方图根据数据量的大小,分组组数的范围一般可为5-20组。 茎叶图 线图6. 用数字描述分布 中位数和四分位数 平均数和标准差这些观测值的标准差是:这些观测值的标准差是: 如何选择数值描述分布7. 正态分布 密度曲线 正态分布 标准分值百分位数8. 描述相关关系:相关系数 散点图 相关系数SD线相关系数的原理 相关不是因果关系9. 描述相关关系:回归 回归直线解释斜率另一个例子预测回归效应 最小二乘法均方根误差