何谓统计学new 35页

  • 373.56 KB
  • 2022-08-13 发布

何谓统计学new

  • 35页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
何謂統計學?敘述統計:在於描述一組觀察到的實數值(realnumber)在實數線(或實數空間)的分佈情形。推論統計:在於描述一組隨機變數(randomvariable)實現值(realizations)在實數線(或實數空間)的分佈情形。M.-Y.ChenBasicStatistics\n敘述統計的方法I.圖形表現法(Graphicrepresentations):1.Bargraphs2.Piecharts3.Histogram4.Ogive5.RelativefrequencytableM.-Y.ChenBasicStatistics\nII.數值表現法(numericalrepresentations)1.Locationmeasures:maximum,minimum,mean,mode,median,percentile,etc.;2.Dispersionmeasures:range,standarddeviation,etc.;3.Skewnessmeasures:Spearsoncoefficient,skewnesscoefficient,etc.;4.Kurtosismeasures:kurtosiscoefficient,etc.M.-Y.ChenBasicStatistics\n推論統計的方法統計推論:Statisticalinferencesonmeasuresofrandomvariables圖形發掘:Graphicaldiscovery(densityestimation)M.-Y.ChenBasicStatistics\n連續隨機變數一個隨機變數X:X:Ω={E1,E2,...,EN}→R={x1,x2,...,xN}.若任意xi及xj屬於R,且任意一個實數c滿足0≤c≤1,使得cxi+(1−c)xj也屬於R,則R稱為由連續實數所組成的集合,而隨機變數X則稱為連續隨機變數(continuousrandomvariable);若存在任意一個實數c滿足0≤c≤1,使得cxi+(1−c)xj不屬於R,則R稱為由間斷實數所組成的集合,而隨機變數X則稱為間斷隨機變數(discreterandomvariable)。M.-Y.ChenBasicStatistics\n單一連續隨機變數分佈情形的描述2625232016942qqqqqqqqqqqqqqqqqqqqqqqqqq0M.-Y.ChenBasicStatistics\n單一連續隨機變數分佈情形的描述(1)1.累加機率分配函數(CumulativeProbabilityDistributionFunction,CDF):FX(a)=P(X≤a)Za=dFX(x).−∞2.機率密度函數(ProbabilityDensityFunction,pdf):dFX(x)fX(x)=dx對所有x∈R皆存在,即FX(x)在所有x∈R皆為可微分(differentiable)。此時,ZaFX(a)=fX(x)dx.−∞M.-Y.ChenBasicStatistics\n單一連續隨機變數分佈情形的描述(2)1.位置衡量:期望值Z∞E(X)=xdFX(x)−∞Z∞=xfX(x)dx,ifFX(x)exists.−∞2.分散度衡量:變異數var(X)=E[(X−E(X))2]Z∞2=(x−E(X))dFX(x)−∞Z∞=(x−E(X))2f(x)dx,ifF(x)exists.XX−∞3.偏態衡量:α(X)=E[(X−E(X))3]3Z∞M.-Y.ChenBasicStatistics3=(x−E(X))dFX(x)\ny(∞,∞)•兩個連續隨機變數分佈情形的描述xqqqqqqqqqqqqqqqqqqqqqqqqqM.-Y.ChenBasicStatistics\n兩連續隨機變數分佈情形的描述(1)(1)聯合累加機率分配函數(JointCumulativeProbabilityDistributionFunction,JointCDF):FX,Y(a,b)=P(X≤a,Y≤b)ZaZb=dFX,Y(x,y).−∞−∞(2)聯合機率密度函數(JointProbabilityDensityFunction,Jointpdf):dFX,Y(x,y)fX,Y(x,y)=dxdy對所有(x,y)∈R2皆存在,即F(x,y)在所有(x,y)∈R2皆為可微分X,Y(differentiable)。此時,ZaZbFX,Y(a,b)=fX,Y(x,y)dxdy.−∞−∞M.-Y.ChenBasicStatistics\n(3)邊際機率密度函數(MarginalProbabilityDensityFunction):ZZ∞∞fX(x)=fX,Y(x,y)dy,fY(y)=fX,Y(x,y)dx,−∞−∞是隨機變數X及Y的邊際機率密度函數。(4)條件機率密度函數(ConditionalProbabilityDensityFunction):fX,Y(x,y)fX,Y(x,y)fX|Y=y(x)=,fY|X=x(y)=,fY(y)fX(x)是隨機變數X在條件Y=y下及隨機變數Y在條件X=x下的條件機率密度函數。(5)隨機變數X及Y相互獨立(independent)若且為若fX,Y(x,y)=fX(x)fY(y)。M.-Y.ChenBasicStatistics\n兩連續隨機變數間線性關係的描述1.共變異數(covariance):cov(X,Y)=E((X−µX)(Y−µY))=E(XY)−µXµY=σXY。2.相關係數(correlation):corr(X,Y)=σXY/(σXσY)=ρXY且−1≤ρXY≤1;corr(X,Y)是ZX和ZY的共變異數,其p中ZX=[X−E(X)]/var(X)及ZY=p[Y−E(Y)]/var(Y)是X和Y的Z-scores。3.若X和Y相互獨立,則cov(X,Y)=0,反之不成立。4.E(X+Y)=E(X)+E(Y);var(X+Y)=var(X)+var(Y)+2cov(X,Y)。M.-Y.ChenBasicStatistics\n統計上一些常用的隨機變數1.常態分配:X∼N(µ,σ2),1−(x−µ)2其fX(x)=√exp(2);(X−µ)/σ∼N(0,1)。2πσ22σ2.若X1,...Xm為相互獨立之N(0,1),P則Z=mX2∼χ2,即自有度為m的卡方分配。i=1im3.若X∼N(0,1)且Y∼χ2為相互獨立,pm則W=X/Y/m∼tm,即自有度為m的Studentt-分配;tm→N(0,1)當m→∞。4.若X∼χ2且Y∼χ2為相互獨立,nm則U=(X/n)/(Y/m)∼Fn,m,即第一自有度為n、第二自有度為m之F分配。M.-Y.ChenBasicStatistics\n推論統計在推論統計(statisticalinerence)中,主要的目的在於以少數、部分觀察到的實現值,使能瞭解到需要用無窮多個(間斷隨機變數)或所有無窮多個(連續隨機變數)實現值方能得到描述隨機變數在實數空間分佈情形的機率函數、累加機率分配函數(機率密度函數)或衡量參數(measureparameters)。所觀察到的實現值,稱為樣本觀察值(sampleobservations;而相對應之無窮多個(間斷隨機變數)或所有無窮多個(連續隨機變數)實現值的集合稱為母體(population)。M.-Y.ChenBasicStatistics\n樣本估計式母體樣本實現值{x1,x2,...,x∞}{x1,x2,...,xn}1Pn位置衡量E(X)ni=1xi1Pn2分散度衡量var(X)ni=1(xi−x¯n)1Pn3偏態衡量α3(X)ni=1(xi−x¯n)1Pn4峰態衡量α4(X)ni=1(xi−x¯n)M.-Y.ChenBasicStatistics\n樣本估計式Sample1{x1,x1,...,x1}⇒x¯1=1Pnx112nnnPi=1iSample2{x2,x2,...,x2}⇒x¯2=1nx212nnnPi=1iSample3{x3,x3,...,x3}⇒x¯3=1nx312nnni=1i......SampleN{xN,xN,...,xN}⇒x¯N=1PnxN12nnni=1ix¯的抽樣分配為數值{x¯1,x¯2,···,x¯N}當N→∞在實數線上的nnnn分佈情形;其分佈情形可用E(¯xn),var(¯xn)),α3(¯xn),及α4(¯xn)來描述。M.-Y.ChenBasicStatistics\n樣本估計式的評斷標準1.不偏性(Unbiasedness):E(¯xn)=E(X),¯xn稱為不偏估計式(unbiasedestimator)。2.一致性(Consistancy):limn→∞x¯n)=E(X),¯xn稱為一致估計式(consistantestimator)。3.有效性(Efficiency):若x¯1和x¯2均為不偏,且var(¯x1)