
\documentclass[10pt]{article}
\usepackage{amsmath}
\usepackage{amsfonts}
\usepackage{amssymb}
\usepackage[brazil]{babel}
\usepackage[latin1]{inputenc}
\usepackage{pstricks}
\usepackage{graphicx}
\usepackage{pstcol,pst-plot}

\usepackage{setspace} %define o espacamento de linhas

\setlength\topmargin{1cm} %define margem superior
\setlength\headheight{0cm} %quanto de espaço reservado para cabeçalho
\setlength\headsep{0in} % qual o espaçamento entre cabeçlho e texto
\setlength\textheight{24cm} % comprimento do texto
\setlength\textwidth{15cm} % largura do texto
\setlength\oddsidemargin{1cm} % margem do lado esquerdo
\setlength\evensidemargin{1cm} % margem do lado direito
\setlength\parindent{0.64cm} % quanto usar de identação (recuo de paragrafo))
\setlength\parskip{0.3cm} % quanto de espaço entre um parágrafo e outro


\begin{document}
\begin{spacing}{1.5}
\section{CONSTRUÇÃO DE MODELOS ESTATÍSTICOS BASEADOS NA VEROSSIMILHANÇA}

 O paradigma da verossimilhança consiste em escrever a função que define o
quão plausível é cada valor do parâmetro. O melhor parâmetro para um dado modelo e um conjunto de dados é aquele que maximiza L($\theta \; \vert$ dados; modelo). A curvatura da função de verossimilhança ao redor de $\theta$ está relacionado com a incerteza sobre $\theta$ (variância de $\hat{\theta}$).

\begin{center}
\setlength{\unitlength}{0.1cm}
\begin{pspicture}(0,0)(6,6)
\psaxes[ticks=none,Dx=6,Dy=6](5,5)
\psline[]{->}(0,0)(0,6)
\psline[]{->}(0,0)(6,0)
\psline[linewidth=0.15mm,linestyle=dashed]{-}(2.5,5)(2.5,0)
\put(2.4,-0.5){$\hat{\theta}$}
\put(6.3,0){$\theta$}
\put(0.3,5.6){$L(\theta)$}
\put(4,5.3){curvatura ao redor de $\hat{\theta}$}
\put(4,4.9){que \'e equivalente a var$(\hat{\theta})$}
\pscurve[](0,0)(2.5,5)(5,0)
\pscurve[linewidth=1mm](1.2,4)(2.5,5)(3.8,4)
\pscurve[linewidth=0.15mm]{->}(3.8,5.2)(3.4,5.1)(3,4.9)
\end{pspicture}
\end{center}

Em suma, este paradigma consiste em escrever a função $L(\theta) \equiv
f(y_{i} \vert \;\theta, \text{modelo})$ (distribuição marginal de $y_{i}$), e então o
problema estatístico está concluído e passa a ser um problema
matemático de otimização. Nesta função, $y_{i}$ são quantidades
observáveis, $f(\cdot) \equiv [Y]$ a distribuição marginal de $y$ e $Y$ é
o vetor de todas as v.a. observáveis. $[Y]$ é dita a distribuição
marginal (ou modelo marginal).

\subsection{VEROSSIMILHANÇA PARA MODELOS DE EFEITOS ALEATÓRIOS (HIERÁRQUICOS)}

Dizemos que um modelo tem efeitos aleatórios quando possui variáveis
latentes (ou variáveis não observáveis). Esse modelo é representado
esquematicamente como
$$M : \theta; Y; U; \phi$$

\noindent onde $\theta$ são parâmetros associados às variáveis observáveis $Y$ e $\phi$ são parâmetros associados às variáveis não observáveis  $U$ (ou efeitos aleatórios).

O modelo é constituído pela distribuição conjunta $[Y,U]$. Assim, a
verossimilhança para este problema será dada por $L(\theta;\phi)$ que
irá também coincidir com a distribuição marginal de $Y$ obtida pela
fatoração da distribuição conjunta de $Y$ e $U$, ou seja, $[Y,U]=[Y\vert U][U]$.
Assim,

\begin{equation}
L(\theta;\phi)\equiv[U]=\int [Y,U]du=\int[Y\vert U][U] du
\label{equ:vero}
\end{equation}

A integral da distribuição conjunta de $Y$ e $U$ em relação a $U$ retira o
efeito aleatório do modelo. Sem o efeito aleatório, basta especificar a
matriz de covariância, ou seja, especificar a distribuição de $Y$. Um
modelo geoestatístico, por exemplo, é um modelo de efeitos aleatórios
onde o processo $S$ corresponde aos efeitos aleatórios não observáveis.
Outros exemplos podem ser levantados onde (a) ou os elementos (quantidades)
não observadas de $U$ são independentes entre si ou (b) são
correlacionados (caso geoestatístico).

Certos modelos de efeitos aleatórios implicam em um modelo marginal (caso
do modelo geoestatístico normal), mas a recíproca não é verdadeira.
No caso geoestatístico, podemos estimar o modelo tanto especificando-o como
modelo marginal quanto como modelo de efeitos aleatórios. Entretanto,
deve-se tomar cuidado com a interpretação. Se você especificar um modelo
marginal (para um modelo de efeitos aleatórios) este pode dar um
componente de variância negativo. Isto significa que a interpretação do
efeito aleatório não fará sentido. Diferentes modelos de efeitos
aleatórios podem levar a um mesmo modelo marginal. Estaremos, aqui,
interessados em inferência de modelos aleatórios. A especificação dada
pela equação (\ref{equ:vero}) serve para qualquer modelo de efeitos aleatórios, desde
o mais simples ao mais complicado.

Quando se especifica um modelo estatístico e se quer fazer inferência
baseada na verossimilhança (bayesiana ou não), devemos no final obter $[Y]$ 
diretamente, integrando ou fatorando, como é o caso de modelos
de transição $[Y_{1},...,Y_{n}]=[Y_{n}\vert Y_{1},...,Y_{n-1}][Y_{n-1}\vert Y_{1},...,Y_{n-2}]\cdots[Y_{2}\vert Y_{1}][Y_{1}]$, vai depender de como o modelo é declarado.

Seja $Y\sim N_{k}(\mu,\Sigma)$ uma distribuição normal multivariada de
ordem k onde sua f.p. é dada por:\\
$$f({y})=\left(\frac{1}{2\pi}\right)^{-k/2}|\Sigma|^{-1/2} exp\left\lbrace -\frac{1}{2}({Y}-{\mu})'\,\Sigma^{-1}({Y}-{\mu}) \right\rbrace $$\\
onde $|\Sigma|$ é o determinante da matriz de covariâncias.

A quantidade $\left(\frac{1}{2\pi}\right)^{-k/2}|\Sigma|^{-1/2}$ é irrelevante na
distribuição de probabilidade (mas é irrelevante para a verossimilhança)
por ser constante, (pois não depende de ${Y}$), restando somente
a quantidade $exp\{-\frac{1}{2}({Y}-{\mu})'\,\Sigma^{-1}({Y}-{\mu})\}$, dita \textit{Kernel} da distribuição.

\subsection{FATOS DE PROBABILIDADE NA NORMAL MULTIVARIADA}

\indent Seja $Y_{n}\sim MVN(\mu _{Y},\Sigma _{YY})$ um vetor de variáveis
observáveis de tamanho $n$ e seja $U_{m}\sim MVN(\mu _{U},\Sigma _{UU})$ um vetor de variáveis não observáveis e de efeitos aleatórios de
tamanho $m$. Então a distribuição conjunta de $Y_{n}$ e $U_{m}$ será dada por:

$$\left[
\begin{tabular}{l}
$Y_{n}$ \\
$U_{m}$%
\end{tabular}%
\right] \sim MVN_{n+m}\left( \left[
\begin{tabular}{l}
$\mu _{Y}$ \\
$\mu _{U}$%
\end{tabular}%
\right] ;\left[
\begin{tabular}{ll}
$\Sigma _{YY}$ & $\Sigma _{YU}$ \\
$\Sigma _{UY}$ & $\Sigma _{UU}$%
\end{tabular}%
\right] \right) $$

\begin{description}
\item[Caso 1:] Obtendo a Distribuição Marginal de $Y$ a Partir da Distribuição Conjunta de $Y$ e $U$

As distribuições marginais são definidas por:

$$\left[ Y_{n}\right] =\int \left[ Y_{n};U_{m}\right] du \hspace{1cm}\text{ e } \hspace{1cm} \left[
U_{m}\right] =\int \left[ Y_{n};U_{m}\right] dy$$

\noindent onde $Y_{n}\sim MVN(\mu _{Y},\Sigma _{YY})$ e $U_{m}\sim MVN(\mu_{U},\Sigma _{UU})$

\item[Caso 2:] Obtendo a Distribuição Condicional de $Y$ dado $U$ a Partir da Distribuição Conjunta de $Y$ e $U$

Neste caso,\\
$$\left[ Y_{n}\vert U_{m}\right]\sim MVN_{n+m}\left(\mu
_{Y}-\Sigma _{YU}\Sigma _{UU}^{-1}(U-\mu_{U});\Sigma _{YY}-\Sigma
_{YU}\Sigma _{UU}^{-1}\Sigma _{UY} \right)$$

Este resultado é análogo ao usado para obter o estimador de
krigagem simples obtido em modelos geoestatísticos.

Se as variáveis $Y_{n}$ e $U_{m}$ forem independentes, então a
distribuição marginal de $Y_{n}$ será igual a
distribuição condicional de $Y_{n}\vert U_{m}$ pois $\Sigma
_{YU}=\Sigma _{UY}=0. $

\item[Caso 3:] Obtendo a Distribuição Marginal de $Y_{n}$ Induzida pelo Modelo de Efeitos Aleatórios

Neste caso, não dispomos da distribuição conjunta de
$Y_{n}$ e $U_{m}$. Se especificarmos a distribuição dos
efeitos aleatórios $U_{m}$ e a distribuição condicional de
$Y_{n}$ dado $U_{m}$ poderemos derivar a distribuição
conjunta  e da distribuição conjunta de $Y_{n}$ e $U_{m}$
extraímos a distribuição marginal de $Y_{n}$.

Então, se especificarmos o seguinte modelo de efeitos
aleatórios 

 $$[U_{m}]\sim MVN_{m}(\mu _{U}\textbf{1};\Sigma _{UU})\hspace{1cm} \text{ e }\hspace{1cm}
 [Y_{n}\vert U_{m}]\sim MVN_{n}(DU;\Sigma _{Y\vert U})$$

 \noindent onde $D$ é uma matriz de operacionalização (Delineamento
 de efeitos aleatórios) (por exemplo, com valores unitários) de
 dimensão $n\times m$ e $U=\mu _{Y}+u_{i}$ tem dimensão $m\times
 1$, $\Sigma _{Y\vert U}$ é a matriz de covariâncias de $Y_{n}$
condicionada a $U_{m}$.

 Poderemos obter a distribuição conjunta
 $[Y_{n};U_{m}]=[U_{m}][Y_{n}\vert U_{m}]$ como segue:
$$\left[
\begin{tabular}{l}
$Y_{n}$ \\
$U_{m}$%
\end{tabular}%
\right] \sim MVN_{n+m}\left( \left[
\begin{tabular}{l}
$D_{n\times m}\mu _{Y}$ \\
$\textbf{1}_{n}\mu _{U}$%
\end{tabular}%
\right] ;\left[
\begin{tabular}{ll}
$D\Sigma _{YY}D'+\Sigma _{Y\vert U}$ & $D\Sigma _{UU}$ \\
$\Sigma _{UU}D'$ & $\Sigma _{UU}$%
\end{tabular}%
\right] \right) $$

Assim, podemos obter a distribuição marginal de $Y_{n}$
integrando-se a distribuição conjunta com respeito à $U$,
ou seja, $[Y_{n}]=\displaystyle\int [Y_{n}\vert U_{m}]du $, que resulta em

\begin{equation}
[Y_{n}]\sim MVN_{n}\left(D\mu _{U};D\Sigma _{UU}D'+\Sigma_{Y\vert U}\right)
\label{equ:marg}
\end{equation}

A expressão (\ref{equ:marg}) representa a distribuição marginal de
$Y_{n}$ induzida pelos efeitos aleatórios $U_{m}$ de onde
construímos a função de verossimilhança
$L(\theta;\phi)\equiv[Y_{n}]$.
\end{description}

Seja $Y_{ij}=\mu+B_{j}+\varepsilon_{ij}$ a representação de
um modelo onde cada uma das $y_{i}$-ésima observação tem o
efeito do j-ésimo bloco e um efeito aleatório
$\varepsilon_{ij}\sim N(0,\tau^{2})$ associado. Ou seja, estamos
interessados em um modelo onde os efeitos aleatórios estão
especificados pelos efeitos de Bloco.

Desejamos escrever para esse modelo hierárquico a função
de verossimilhança.

\subsection{Modelo Linear com Intercepto Aleatório}

Temos $k$ grupos com cada grupo com $r_{i}$ elementos, ou seja,
$Y_{ij}: i=1,...,k ; j=1,...,r_{i}$.

Usando o fato de que, uma distribuição conjunta de grupos
independentes pode ser obtida pelo produto de outras
distrições, podemos escrever então
$$[Y]=\prod_{i=1}^{k}[Y_{i}]=[Y_{1}][Y_{2}]\cdots[Y_{k}]$$

A Especificação do modelo hierárquico de variáveis gaussianas
é dada por:
\begin{itemize}
\item $[Y_{i}\vert b_{i}]\sim MVN_{r_{i}}(\textbf{1}_{r_{i}}b_{i};\sigma^{2}\textbf{I})$ onde $b_{i}$ é a média do i-ésimo grupo (com dimensão 1) que caracteriza o modelo como sendo linear de intercepto aleatório, ou seja, cada grupo tem um único efeito aleatório (só no intercepto).
\item  $[b_{i}]\sim N_{1}(\mu;\tau^{2})$ é o efeito aleatório não observável.
\end{itemize}

Naturalmente, a distribuição conjunta de $Y_{i}$ e $b_{i}$ da qual iremos derivar a distribuição de $Y_{i}$ (e a função de verossimilhança) será dada, num caso geral, por $[Y,b]=[Y\vert b][b]$. Como as observações dentro do i-ésimo grupo são independentes e $[Y_{i}\vert b_{i}]$ implica que $Y_{i}$  não dependerá de $b_{i}$ na condicional então podemos escrever:

$$[Y_{i},b_{i}]=\left(\prod_{j=1}^{r_{i}}f(y_{ij}\vert b_{i})\right)f(b_{i})$$

E a distribuição marginal de $Y_{i}$ será dada por:

$$[Y_{i}]=\int [Y_{i},b_{i}]db_{i}=\int \left[\prod_{j=1}^{r_{i}}f(y_{ij}\,\vert\,b_{i})\right]f(b_{i})db_{i}=\int \left[\prod_{j=1}^{r_{i}}[y_{ij}\vert b_{i}]\right][b_{i}]db_{i}$$


$$[Y_{i}]=E_{b_{i}}\left[\prod_{j=1}^{r_{i}}f(y_{ij}\vert b_{i})\right]$$

Se o modelo especificado for linear com variáveis gaussianas, a distribuição conjunta será dada por:
$$\left[
\begin{tabular}{l}
$Y$ \\
$b$%
\end{tabular}%
\right] \sim MVN_{r_{i}
+1}\left( \left[
\begin{tabular}{l}
$1\mu$ \\
$\mu$%
\end{tabular}%
\right] ;\left[
\begin{tabular}{ll}
$\tau^2 \textbf{1}\textbf{1}'+\Sigma^{2}I$ & $\textbf{1}\tau^2$ \\
$\tau^2 \textbf{1}$ & $\tau^2$%
\end{tabular}%
\right] \right) $$
onde $[Y_{i}]\sim MVN_{r_{i}}(\textbf{1}_\mu;\sigma^{2}\textbf{1}\,\textbf{1}'+\tau^2\textbf{I})$

Se o modelo envolver variáveis não gaussianas, teremos que resolver a integral dada pela equação (\ref{equ:marg}).
\end{spacing}
\end{document}
