随机变量的统计特征主要包括期望,方差,协方差以及相关系数。
先验概率与后验概率
本文主要讲述先验概率,后验概率,共轭分布和共轭先验这几个概念。
众所周知,概率论中有两大学派:频率学派和贝叶斯学派。先验概率,后验概率,共轭分布和共轭先验是贝叶斯学派中的几个概念。原因是贝叶斯学派认为分布存在先验分布和后验分布的不同,而频率学派则认为一个事件的概率只有一个。
下面先以一个直观的例子来说明先验概率和后验概率的概念
比如说,你来到一个山洞,这个山洞里可能有熊也可能没有熊, 记你觉得山洞有熊的为事件 $Y$. 然后,你也许听到山洞里传来熊的吼声, 记听到熊吼声为事件 $X$. 你一开始认为山洞有熊的概率是 $P(Y)$; 听到熊的吼声之后,你认为有熊的概率是 $P(Y|X)$。在这里,$P(Y)$ 就是先验概率, $P(Y|X)$ 是后验概率.
样本以及抽样分布
概率论与数理统计的主要区别为,在概率论中所研究的随机变量,其分布都是假设已知的,在这一前提下去研究它的性质(数字特征,分布函数等);而在数理统计中研究的随机变量其分布是未知的,通过对所研究的随机变量进行重复独立的试验和观察,得到许多观察值,再对观察值进行分析,从而对所研究的随机变量的分布做出各种推断
因此数理统计的主要内容包括两部分,一是如何收集,整理数据资料,二是如何对得到的数据资料进行分析和研究,从而对所研究的对象的性质和特点做出推断。第二部分其实就是统计推断的问题,也是后面主要讲述的内容。本文主要讲述数理统计中的两个基本概念:样本和抽样分布。
参数估计
在数理统计中,常常需要通过样本来估计总体的参数,估计可划分为两大类:点估计和区间估计。点估计就是估计总体中某个参数的值,而区间估计是估计总体的某个参数落在某个区间的概率大小。本文主要讲述点估计中的矩估计法和最大似然估计法,以及针对服从正态分布的期望和方差进行区间估计。
参数估计定义
- 已知一个随机变量的分布函数 $Xf_θ(x)$, 其中 $θ = (θ_1,··· ,θ_k)$ 为未知参数.
- 样本 $X_1,··· ,X_n$
- 利用样本对参数 $θ$ 做出估计,或者估计 $θ$ 的某个函数 $g(θ)$
- 点估计: 用样本的一个函数 $T(X_1,··· ,X_n)$ 去估计 $g(θ)$
- 区间估计: 用一个区间去估计 $g(θ)$
概率
随机变量与概率
概率密度函数的积分
离散随机变量
假设随机变量 $X$ 的取值域为 $Ω = \{x_i\}_{i=1}^\infty$,那么对于任何一个 $x_i$,事件 $X = x_i$ 的概率记为 $P(x_i)$. 对于 $Ω$ 的任何一个子集 $S = \{x_i\}_{i=1}^\infty =1$,事件 $X ∈ S$ 的概率为对于离散随机变量,概率为概率函数的求和
连续随机变量
假设随机变量 $X$ 的取值域为 $\mathbb{R}$,那么对于几乎所有 $x ∈R$, 事件 $X = x$ 的概率 $P(X = x)$ 都等于 0. 所以我们转而定义概率密度函数 $f : \mathbb{R}→ [0,∞)$. 对于任何区间 $(a,b)$, 事件 $X ∈ (a,b)$ 的概率为