pacman::p_load(dplyr)When \(n\) is large, \(Binom[n, p]\) approaches \(Norm[\mu = n p, \sigma=\sqrt{n p (1-p)}]\)
\(X \sim Binom[n, p] \, \Rightarrow \, Exp(X) = n \cdot p \, , \, Var(X) = n \cdot p \cdot (1-p)\)
par(mfrow=c(1,1), mar=c(3,4,3,1), cex=0.7)
n = 1000; p = 0.2
rbinom(500000, n, p) %>% hist(breaks=80, freq=F, main="")
curve(dnorm(x, mean=n*p, sd=sqrt(n*p*(1-p))), col='red', lwd=2, add=T)par(mfrow=c(1,2), cex=0.7)
n = 10; p = 0.2
rbinom(100000, n, p) %>% table %>% barplot()
rnorm(100000, n*p, sqrt(n*p*(1-p))) %>% hist(freq=F)💡 : 當期望值夠大的時候,
二項分佈會以期望值為中心向兩邊對稱的伸展,但是如果期望值不夠大的話,這個分佈的左尾就會受到擠壓,變成一個不對稱的分佈。
par(mfrow=c(1,2), cex=0.7)
rbinom(100000, 1000, 0.002) %>% table %>% barplot(main="Boinomial")
rpois(100000, 2) %>% table %>% barplot(main="Poisson")
🗿 :
如果Poisson分佈很接近二項分佈,我們為甚麼還需要Poisson分佈呢?
💡 : 簡單、一般性 vs
複雜、準確性
sapply(1:10, function(lambda) {
x = rpois(1000000, lambda)
c(mean(x), var(x))
}) [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,] 0.99993 1.9995 2.9975 3.9961 5.0001 6.0008 7.0030 7.9995 8.9984 10.002
[2,] 1.00004 1.9962 2.9963 3.9865 5.0006 6.0101 6.9858 7.9846 8.9810 10.038
par(mfrow=c(1,2), cex=0.7)
(rpois(100000, 1) + rpois(100000, 2)) %>% table %>% barplot(main="Pois[1] + Pois[2]")
rpois(100000, 3) %>% table %>% barplot(main="Pois[3]")💡 :
透過模擬:(1)建立變數向量(隨機變數);(2)驗證理論;(3)做預測與估計
K = 10000000
par(mfrow=c(1,1), cex=0.7)
d1 = sample(faithful$eruptions, K, T); #d1 %>% hist
d2 = rpois(K, 6); #d2 %>% table %>% barplot
d3 = rnorm(K, 0, 1); #d3 %>% hist
(d1*d2+4*d3) %>% hist我們可以用二項分佈來模擬Geometric Dist.
par(mfrow=c(1,2), mar=c(3,3,3,1), cex=0.7)
replicate(100000, which(rbinom(100, 1, .3) == 1)[1] - 1) %>%
table %>% barplot(main="Binomial Simulation")
rgeom(100000, 0.3) %>% table %>% barplot(main="Geometric")🗿 :
如果有一台機器每一天壞掉的機率是0.05,那麼在20天之內,它還能正常工作的機率分別是多少呢?
dgeom(0:20, 0.05) %>% cumsum [1] 0.05000 0.09750 0.14263 0.18549 0.22622 0.26491 0.30166 0.33658 0.36975
[10] 0.40126 0.43120 0.45964 0.48666 0.51233 0.53671 0.55987 0.58188 0.60279
[19] 0.62265 0.64151 0.65944
🗿 :
如果平均而言每一個捐贈者有我需要的器官的機率是5%,那麼平均我要等多少個捐贈者才能等到我想要用的器官呢?
(1/0.05)-1[1] 19
🗿 :
不用Geometric的期望值公式,妳可以使用dgeom()算出同樣的答案嗎?
sum(0:1000 * dgeom(0:1000, 0.05))[1] 19
💡 隨機變數的平均值與標準差公式
■ \(E(c) = c ; V(c) = 0\)
■
\(E(a+b X) = b(X) ; V(a+b X) = b^2
V(X)\)
■ \(E(a X + b Y) = aE(X)
+bE(Y)\)
■ \(V(a X + b Y) =
a^2V(X) +b^2V(Y) + 2abV(X)V(Y)\)
💡
數理推論為基礎的機率統計之所以難學,主要是因為:
■
隨機變數的觀念很抽象;
■
光使用數學公式很難理解『分佈』的概念;
■
有很多不同種類的分佈,公式計不完;
■
隨機變數之間要做四則運算常常非常困難;
🗿 :
在R的環境之下,我們如何克服上述的各項困難呢?