“数理统计”的版本间差异
跳到导航
跳到搜索
(以“*两组数据混合之后的均值和弥散 数组 A (i=1,N1), 其均值为 M1,弥散为 S1 数组 B(i=1,N2),其均值为M2.弥散为S2 现将A,B混合组成...”为内容创建页面) |
无编辑摘要 |
||
(未显示同一用户的46个中间版本) | |||
第1行: | 第1行: | ||
==基础知识== |
|||
*贝叶斯和频率论解释的差异: [http://en.wikipedia.org/wiki/Lindley%27s_paradox Lindley's paradox ] |
|||
===Moment-generating function=== |
|||
*定义 |
|||
:<math> M_X(t) := \mathbb{E}\!\left[e^{tX}\right], \quad t \in \mathbb{R}, </math> |
|||
*特性:该函数可以找到 all the moments of the distribution. |
|||
: <math> |
|||
e^{t\,X} = 1 + t\,X + \frac{t^2\,X^2}{2!} + \frac{t^3\,X^3}{3!} + \cdots +\frac{t^n\,X^n}{n!} + \cdots. |
|||
</math> |
|||
即有: |
|||
: <math> |
|||
\begin{align} |
|||
M_X(t) = \mathbb{E}(e^{t\,X}) &= 1 + t \,\mathbb{E}(X) + \frac{t^2 \,\mathbb{E}(X^2)}{2!} + \frac{t^3\,\mathbb{E}(X^3)}{3!}+\cdots + \frac{t^n\,\mathbb{E}(X^n)}{n!}+\cdots \\ |
|||
& = 1 + tm_1 + \frac{t^2m_2}{2!} + \frac{t^3m_3}{3!}+\cdots + \frac{t^nm_n}{n!}+\cdots, |
|||
\end{align} |
|||
</math> |
|||
*[[The Pearson diagram]] |
|||
===中位值,平均值.最可几值(median,mean,mode)=== |
|||
*中位值对应的误差mean absolute error function |
|||
<math>mae(a) = \frac{1}{n - 1} \sum_{i=1}^n |x_i - a|, \quad a \in \R</math> |
|||
:中位值的误差 π4n/(2n+1)*σ/sqrt(N),比平均值误差大 (假设高斯分布) |
|||
*平均值对应的误差是 mean square error function |
|||
<math>mse(a) = \frac{1}{n - 1} \sum_{i=1}^n (x_i - a)^2, \quad a \in \R </math> |
|||
:参考[http://www.math.uah.edu/stat/sample/Variance.html] |
|||
*对称分布mean=median=mode |
|||
*mean-mode=3(mean-median) |
|||
===方差,标准偏差,误差=== |
|||
====样本方差(sample variance)==== |
|||
<math> |
|||
s^2 = \frac{1}{n - 1} \sum_{i=1}^n (x_i - m)^2 |
|||
</math> |
|||
:证明参考:[http://www.math.uah.edu/stat/sample/Variance.html] |
|||
*样本方差的分布 |
|||
<math>\dfrac{(n-1)S^2}{\sigma^2}=\dfrac{\sum_{i=1}^n (X_i-\bar{X})^2}{\sigma^2}\sim \chi^2(n-1)</math> |
|||
:证明参考[https://onlinecourses.science.psu.edu/stat414/node/174] [http://mathworld.wolfram.com/SampleVarianceDistribution.html] |
|||
:chi-square(n)分布的variance是2n,因此样本方差的误差为<math>\sigma^2\sqrt{\frac{2}{n-1}} </math> |
|||
====标准偏差(standard deviation)==== |
|||
<math> |
|||
S = \sqrt{\frac{1}{n - 1} \sum_{i=1}^n (x_i - m)^2} |
|||
</math> |
|||
:其无偏估计比较复杂,其误差近似为<math>\sigma/\sqrt{2(n-1)}</math>具体可参考[[file:stderr.pdf]] |
|||
===例子=== |
|||
*两组数据混合之后的均值和弥散 |
*两组数据混合之后的均值和弥散 |
||
:数组 A (i=1,N1), 其均值为 M1,弥散为 S1,数组 B(i=1,N2),其均值为M2,弥散为S2,现将A,B混合组成数组C,求其均值M3和弥散S3 |
|||
⚫ | |||
⚫ | |||
===两个不等式=== |
|||
*马尔科夫不等式:在知道样本期望和方差的情况下,对随机变量取值的概率约束 |
|||
*切比雪夫不等式:在只有样本数学期望的情况下,对随机变量的估值约束 |
|||
==分布函数== |
|||
数组 A (i=1,N1), 其均值为 M1,弥散为 S1 |
|||
*Dirichlet distribution |
|||
数组 B(i=1,N2),其均值为M2.弥散为S2 |
|||
:被用来构建非参数的SFH,[arXiv.1901.02877] |
|||
:多维的[beta分布 | https://en.wikipedia.org/wiki/Beta_distribution], |
|||
==极值统计== |
|||
现将A,B混合组成数组C,求其均值M2和弥散S3 |
|||
极值统计在天文中有较多应用:如观测到的高红移星系团,大的void的是否符合halo mass function的预言? BCG的光度是否符合光度函数的极值分布? |
|||
*arxiv:1108.1358 给出了halo mass function的极值分布函数的近似,表明要用极值来区分非高斯性是有困难的。 |
|||
*arxiv:1108.5458 : 在拿观测和理论模型进行比较的时候,可以在两个极端之间 ,1观测样本是极限情况(least probable),2,随机情况。 |
|||
*在讨论观测样本的可能数目(比如一定体积限内大于多少质量的星系团的个数)之外,还可以进一步比较观测量(比如)的分布情况。 |
|||
*极值统计的两种近似(arXiv: 1201.3526) |
|||
:*GEV (general extreme value): Gnedenko approach 比如一个空间内最大质量星系团不超过某个极值的概率 |
|||
:*The Pareto approach 这是一个条件概率,比如是在大于某个极限的星系团中,超过这个极限某个数值的概率。 |
|||
:*这两个概率在极限情况下,就是比如星系团的极值都设得特别大的情况下都是1. 但是在非极限情况下不一致,条件概率比GEV更小一点。 |
|||
==Bayesian approach== |
|||
⚫ | |||
*Hierarchical Bayesian Meta-Analysis [http://adsabs.harvard.edu/abs/2015ApJ...806...96L] [http://arxiv.org/abs/1607.05281] |
|||
:一种混合模型,可以结合不同的观测数据,这些数据甚至是不自洽的,有缺陷的。 |
|||
==专题== |
|||
⚫ | |||
*[[copula]] |
|||
==参考网站== |
|||
*http://www.math.uah.edu/stat/ |
|||
*https://onlinecourses.science.psu.edu/stat414/ |
2021年8月25日 (三) 06:36的最新版本
基础知识
- 贝叶斯和频率论解释的差异: Lindley's paradox
Moment-generating function
- 定义
- 特性:该函数可以找到 all the moments of the distribution.
即有:
中位值,平均值.最可几值(median,mean,mode)
- 中位值对应的误差mean absolute error function
- 中位值的误差 π4n/(2n+1)*σ/sqrt(N),比平均值误差大 (假设高斯分布)
- 平均值对应的误差是 mean square error function
- 参考[1]
- 对称分布mean=median=mode
- mean-mode=3(mean-median)
方差,标准偏差,误差
样本方差(sample variance)
- 证明参考:[2]
- 样本方差的分布
- chi-square(n)分布的variance是2n,因此样本方差的误差为
标准偏差(standard deviation)
例子
- 两组数据混合之后的均值和弥散
- 数组 A (i=1,N1), 其均值为 M1,弥散为 S1,数组 B(i=1,N2),其均值为M2,弥散为S2,现将A,B混合组成数组C,求其均值M3和弥散S3
M3=(N1*M1+N2*M2)/(N1+N2) (N1+N2)*S3^2=N1*S1^2+N2*S2^2+(N1^2+N2^2)/(N1+N2)^2*(M1-M2)^2
两个不等式
- 马尔科夫不等式:在知道样本期望和方差的情况下,对随机变量取值的概率约束
- 切比雪夫不等式:在只有样本数学期望的情况下,对随机变量的估值约束
分布函数
- Dirichlet distribution
- 被用来构建非参数的SFH,[arXiv.1901.02877]
- 多维的[beta分布 | https://en.wikipedia.org/wiki/Beta_distribution],
极值统计
极值统计在天文中有较多应用:如观测到的高红移星系团,大的void的是否符合halo mass function的预言? BCG的光度是否符合光度函数的极值分布?
- arxiv:1108.1358 给出了halo mass function的极值分布函数的近似,表明要用极值来区分非高斯性是有困难的。
- arxiv:1108.5458 : 在拿观测和理论模型进行比较的时候,可以在两个极端之间 ,1观测样本是极限情况(least probable),2,随机情况。
- 在讨论观测样本的可能数目(比如一定体积限内大于多少质量的星系团的个数)之外,还可以进一步比较观测量(比如)的分布情况。
- 极值统计的两种近似(arXiv: 1201.3526)
- GEV (general extreme value): Gnedenko approach 比如一个空间内最大质量星系团不超过某个极值的概率
- The Pareto approach 这是一个条件概率,比如是在大于某个极限的星系团中,超过这个极限某个数值的概率。
- 这两个概率在极限情况下,就是比如星系团的极值都设得特别大的情况下都是1. 但是在非极限情况下不一致,条件概率比GEV更小一点。
Bayesian approach
- 一种混合模型,可以结合不同的观测数据,这些数据甚至是不自洽的,有缺陷的。