当前位置: 代码迷 >> 综合 >> 机器学习|随机变量(连续型、离散型)+分布函数|10mins入门|概统学习笔记(一)
  详细解决方案

机器学习|随机变量(连续型、离散型)+分布函数|10mins入门|概统学习笔记(一)

热度:81   发布时间:2023-12-21 14:27:26.0

1.随机试验、随机事件、样本空间

  • 随机试验:每次出现的可能结果不止一个,且事先不能肯定会出现哪一个结果的试验

  • 随机事件:在一次试验中可能发生也可能不发生的事件

    • 分类:
      • 基本事件:相对于观察目的不可再分解的事件
      • 复合事件:两个及以上基本事件合并
    • 随机事件的概率: 1 ≥ P ( A ) ≥ 0 1 \geq P(A)\geq 0 1P(A)0表示事件A发生概率
  • 样本点:随机试验的每个基本结果,记作 e e e

  • 样本空间:全体样本点的集合,记作 S S S

在这里插入图片描述
e.g 掷骰子

S = { i : i = 1 , 2 , 3 , 4 , 5 , 6 } S=\{i:i=1,2,3,4,5,6\} S={ i:i=1,2,3,4,5,6}

2. 随机变量

  • 随机变量:定义在样本空间上的实值函数,简称为 r . v . r.v. r.v.

    • 把随机试验结果数值化

    • 随试验结果的不同而取不同的值,在试验之前只知道它可能的取值范围,而不能预先肯定它将取的值

    • 由于试验结果的出现具有一定的概率,于是这种实值函数取每个值和每个确定范围内的值也有一定的概率。

    • 随机变量通常用大写字母表示 X , Y , Z X,Y,Z X,Y,Z ζ , η \zeta,\eta ζ,η,而随机变量所取的值,通常用小写字母 x , y , z x,y,z x,y,z表示
      在这里插入图片描述

    • 分类:

      • 离散型随机变量:所有取值可以逐个一一列举
      • 连续型随机变量:全部可能取值无穷多
    • 随机事件与随机变量区别:

      1)随机变量包括随机事件

      2)随机变量是动态的观点,随机事件是静态的观点,如数学分析中常量与变量的区别

  • 离散型随机变量

    • 离散型随机变量X的概率函数(或分布律,或概率分布)

      x k ( k = 1 , 2 , . . . ) x_k(k=1,2,...) xk?(k=1,2,...)是离散型随机变量X所取的一切可能值,称
      P ( X = x k ) = p k , k = 1 , 2 , . . . P(X=x_k)=p_k, k=1,2,... P(X=xk?)=pk?,k=1,2,...
      其中 p k ( k = 1 , 2 , . . . ) p_k(k=1,2,...) pk?(k=1,2,...)满足:

      (1) p k ≥ 0 , k = 1 , 2 , . . . p_k \geq 0,k=1,2,... pk?0,k=1,2,...

      (2) ∑ k p k = 1 \sum_kp_k=1 k?pk?=1

    • 离散型随机变量X的概率规律

    在这里插入图片描述
    在这里插入图片描述

    • 离散型随机变量由它的概率函数唯一确定
  • 连续型随机变量

    • 连续型随机变量X的概率密度函数

      对于随机变量,如果存在非负可积函数 f ( x ) , x ∈ ( ? ∞ , + ∞ ) f(x),x \in (-\infty,+\infty) f(x),x(?,+),使得对任意 a ≤ b a \leq b ab,有
      P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a \leq X \leq b)=\int_a^bf(x)dx P(aXb)=ab?f(x)dx
      则称X为连续型 r . v r.v r.v,称 f ( x ) f(x) f(x)为X的概率密度函数,简称为概率密度。

      其中 f ( x ) f(x) f(x)满足:

      (1) f ( x ) ≥ 0 f(x)\geq 0 f(x)0

      (2) ∫ ? ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty}f(x)dx=1 ??f(x)dx=1

在这里插入图片描述

  • f ( x ) f(x) f(x)进一步理解:

    x x x f ( x ) f(x) f(x)的连续点,则:
    l i m Δ x → 0 p ( x < X ≤ x + Δ x ) Δ x = l i m Δ x → 0 ∫ x x + Δ x f ( t ) d t Δ x = f ( x ) lim_{\Delta x\to 0}\frac{p(x<X\leq x+\Delta x)}{\Delta x}=lim_{\Delta x\to0}\frac{\int_x^{x+\Delta x}f(t)dt}{\Delta x}=f(x) limΔx0?Δxp(x<Xx+Δx)?=limΔx0?Δxxx+Δx?f(t)dt?=f(x)
    故X的密度 f ( x ) f(x) f(x)在x这一点的值,恰好是X落在区间 ( x , x + Δ x ] (x,x+\Delta x] (x,x+Δx]上的概率与区间长度 Δ x \Delta x Δx之比的极限。这里,如果把概率理解为质量, f ( x ) f(x) f(x)相当于线密度。

    密度函数 f ( x ) f(x) f(x)在某点处 a a a的高度,并不反映X取值的概率。但是,这个高度越大,则X取 a a a附近的值的概率就越大。这说明某点密度曲线的高度反映了概率集中在该点附近的程度。

  • 连续型随机变量取任一指定值的概率为0

    即: P ( X = a ) = 0 P(X=a)=0 P(X=a)=0 a a a为任一指定值

    ∵ P ( x = a ) = l i m Δ x → 0 P ( a ≤ X < a + Δ x ) = l i m Δ → 0 ∫ a a + Δ x f ( x ) d x = 0 \because P(x=a)=lim_{\Delta x \to 0}P(a\leq X<a+\Delta x)=lim_{\Delta \to 0}\int_a^{a+\Delta x}f(x)dx=0 P(x=a)=limΔx0?P(aX<a+Δx)=limΔ0?aa+Δx?f(x)dx=0

  • 连续型随机变量唯一被它的密度函数所确定,所以,若已知密度函数,该连续型随机变量的概率规律就得到了全面描述

3.分布函数

  • 背景:为了对离散型的和连续型的 r . v r.v r.v以及更广泛类型的 r . v r.v r.v给出一种统一的描述方法,引进了分布函数的概念。它是一个普通的函数,通过它,我们可以用数学分析的工具来研究随机变量。

  • 定义:设X是一个 r . v r.v r.v,称

    F ( x ) = P ( X ≤ x ) , ( ? ∞ < x < + ∞ ) ? F(x)=P(X\leq x),(-\infty<x<+\infty)? F(x)=P(Xx),(?<x<+)?
    X X X的分布函数,记作 X X X~ F ( x ) F(x) F(x) F X ( x ) F_X(x) FX?(x)

    上式中 X X X是随机变量, x x x是参变量。 F ( x ) F(x) F(x)是随机变量 X X X取值不大于 x x x的概率。

    如果将X看作数轴上随机点的坐标,那么分布函数 F ( x ) F(x) F(x)的值就表示X落在区间 ( ? ∞ , x ] (-\infty,x] (?,x]的概率。

    对任意实数 x 1 < x 2 x_1<x_2 x1?<x2? ,随机点落在区间 ( x 1 , x 2 ] (x_1,x_2] (x1?,x2?]的概率为:
    P { x 1 < X ≤ x 2 } = P { X ≤ x 2 } ? P { X ≤ x 1 } = F ( x 2 ) ? F ( x 1 ) ? P\{x_1<X\leq x_2\}=P\{X\leq x_2\}-P\{X\leq x_1\}=F(x_2)-F(x_1)? P{ x1?<Xx2?}=P{ Xx2?}?P{ Xx1?}=F(x2?)?F(x1?)?
    因此,只要知道了随机变量 X X X的分布函数,它的统计特性就可以得到全面的描述

  • 分布函数的性质:

    (1) F ( x ) F(x) F(x)非降,即若 x 1 < x 2 x_1<x_2 x1?<x2?,则 F ( x 1 ) ≤ F ( x 2 ) F(x_1)\leq F(x_2) F(x1?)F(x2?)

    (2) F ( ? ∞ ) = l i m x → ? ∞ F ( x ) = 0 F(-\infty)=lim_{x\to -\infty}F(x)=0 F(?)=limx??F(x)=0

    ? F ( + ∞ ) = l i m x → + ∞ F ( x ) = 1 F(+\infty)=lim_{x\to +\infty}F(x)=1 F(+)=limx+?F(x)=1

    (3) F ( x ) F(x) F(x)右连续,即 l i m x → x 0 + F ( x ) = F ( x 0 ) lim_{x\to x_0^+}F(x)=F(x_0) limxx0+??F(x)=F(x0?)

  • 离散型随机变量的分布函数

    设离散型随机变量 X X X的概率函数是
    P { X = x k } = p k , k = 1 , 2 , 3 , . . . P\{X=x_k\}=p_k, \quad k=1,2,3,... P{ X=xk?}=pk?,k=1,2,3,...

    F ( x ) = P ( X ≤ x ) = ∑ x k ≤ x p k F(x)=P(X\leq x)=\sum_{x_k\leq x}p_k F(x)=P(Xx)=xk?x?pk?
    由于 F ( x ) F(x) F(x) X ≤ x X\leq x Xx的诸值 x k x_k xk?的概率之和,故又称 F ( x ) F(x) F(x)为累积概率函数

  • 连续型随机变量的分布函数

    X X X是连续型随机变量, X X X~ f ( x ) f(x) f(x),则
    F ( x ) = P ( X ≤ x ) = ∫ ? ∞ x f ( t ) d t F(x)=P(X\leq x)=\int_{-\infty}^xf(t)dt F(x)=P(Xx)=?x?f(t)dt
    即分布函数是密度函数的可变上限不定积分

    由上式可得,在 f ( x ) f(x) f(x)的连续点处,有
    d F ( x ) d x = f ( x ) \frac{dF(x)}{dx}=f(x) dxdF(x)?=f(x)

在这里插入图片描述