Ch.8: Statistics for MachineLearning (2/2)
Sen-ching Samson Cheung
Classical Continuous Distribution
Univariate Gaussian
Student’s t-distribution
Estimating the mean of a univariateGaussian where the sample size is small andthe variance unknown
File:Student t pdf.svg
Classical Continuous Distribution
Dirichlet
Distribution of categorical distribution
For
Properties:
Dirichlet
Multivariate Gaussian
Multivariate Gaussian
Canonical Representation
Entropy
Multivariate Guassian
Completing the Square
Properties
Product of two Gaussians
Linear Transformation
Partitioned Gaussian
Whitening
1.Centering
2.Normalization
Exponential Family
A distribution belongs to exponential has thefollowing form:
T(x) is called sufficient statistics
() is called the natural parameter
() is called the log-partition funciton
Many distributions  exp family
Transformation of univariate Gaussian to standard form
Others include Bernoulli, binomial, poisson,exponential, Pareto, negative binomial, Weibull,Laplace, chi-square, Gaussian, lognormal, inversegaussian, gamma, inverse gamma, beta, multinomial,Dirichlet, Wishart, inverse Wishart, normal-gamma
From Data to Parameters
Given data                         ,
Based on a model M
From Data to Parameters
Given data                         , estimate  in p(x|)
1.Bayesian methods
2.Maximum A posteriori
3.Maximum Likelihood
4.Moment Matching
5.Pseudo Likelihood
ML Estimate of Gaussian
Assume i.i.d data, the log-likelihood function
ML estimator of mean
Derivative
Setting to zero
Optimal estimator
ML Estimate for Gaussian
Optimal variance estimator
Derivative with respect to precision
Setting it to zero
Unbiased Estimator
Unbiased estimator
Example
is unbaised for i.i.d data because
Average variance is biased
For i.i.d data
    but
Conjugate Priors
If the posterior is of the same parametric formas the prior, the prior is called the conjugateprior of the likelihood function
If the likelihood and the prior  exp. family
    it is always a conjugate prior:
MAP Estimate of Gaussian
For simplicity, assume univariate:
Posterior:
a)Prior knowledge about mean
Conjugate prior for : Gaussian
Prior knowledge
about parameters
=𝑝 𝑋 𝜇, 𝜎 2  𝑝 𝜇 𝑝( 𝜎 2 )
Assume independence
What does the posterior look like?
What is the mean of 𝑝 𝜇 𝑋, 𝜎 2  ?
=𝑝 𝑋 𝜇, 𝜎 2  𝑝 𝜇 𝑝( 𝜎 2 )
2
X
What about 𝑝  𝜎 2  𝑋  ?
Assumption
Then
This form is called gaussian-inverse-gamma whoseconjugate prior (2)N-2p(2) is inverse-gamma