Probabilidade

PROBABILIDADES
As origens históricas da teoria das probabilidades estão vinculadas á teoria dos jogos e aos nomes de Fermat e Pascal, que na metade do século XVII formalizaram pela primeira vez o conceito de probabilidade. Falamos aqui de história escrita (mesmo que isto seja uma redundância), já que existem indícios de que o trabalho de Fermat e Pascal consolidou ideias que foram desenvolvidas a partir do século XII.
No decorrer do tempo a teoria das probabilidades foi superando o marco original da teoria dos jogos para constituir na actualidade um ramo da matemática pura com aplicações nas ciências de um modo geral. Faremos aqui uma breve revisão dos aspectos fundamentais da evolução do conceito de probabilidade.

Espaço amostral
Suponhamos um experimento realizado sob certas condições fixas. O espaço amostral Ω do experimento é um conjunto que contém representações de todos os resultados possíveis, onde por “resultado possível”, entende-se resultado elementar e indivisível do experimento. Ω deve satisfazer as seguintes condições:
A todo resultado possível corresponde um, e somente um, elemento ω∈Ω.
Resultados distintos correspondem a elementos distintos em Ω, ou seja, ω∈Ω não pode representar mais de um resultado.

Exemplo 6.1 (Espaço amostral)
Considere um experimento que consiste em arremessar uma moeda duas vezes e observar as faces obtidas voltadas para cima. Define um espaço amostral par este experimento
Solução
Não é difícil encontrar quem defina Ω={cara;coroa} como espaço amostral deste experimento. No entanto, esta definição esta incorrecta, pois no experimento é arremessada a moeda duas vezes e não uma. Lembre-se que o espaço amostral deve conter representações de todos os resultados possíveis do experimento. Um espaço amostral para este experimento é:
Ω={(cara,cara);(cara,coroa);(coroa,cara);(coroa,coroa)}

Eventos
Seja Ω o espaço amostral do experimento. Todo subconjunto A⊂Ω será chamado evento.
Ω é o evento certo.
∅ é o evento impossível.
Para ω∈Ω , o evento ω é dito elementar (ou simples).
Eventos com uma distribuição de probabilidade são chamados de eventos aleatórios.
O complementar de um evento A, denotado por A^c, é o conjunto formado pelos elementos de Ω que não pertencem á A. Assim, A^c={ω∈Ω∶ω∉Ω }
Ω Ω

Exemplo 6.2 (Evento)
Joga-se uma moeda duas vezes. Indique o evento aparecer cara apenas uma vez.
Solução
Seja o evento A=aparecimento de cara uma vez, então:
A={(cara;coroa);(coroa;cara)}

Definições de probabilidade
Há várias interpretações da probabilidade. A seguir, veremos as quatro mais importantes.

Probabilidade clássica
Se Ω é finito, a definição clássica da probabilidade P(A) de um evento A⊂Ω é dada por:
P(A)=(#A)/(#Ω)=(número de elementos de A)/(número de elementos de Ω)
Observação: Esta definição basea-se no conceito de resultados equiparáveis, ou melhor, no princípio da indiferença. Por exemplo, em um experimento que consiste em lançar um dado e observar o resultado, podemos usar Ω={1,2,…,6} e, diante da indiferença entre os resultados, temos P(i)=1/b,∀i∈Ω
Exemplo 6.3 (Definição clássica)
Considere um experimento que consiste em arremessar uma moeda duas vezes e observar as faces obtidas voltadas para cima. Qual é a probabilidade de se obter cara apenas uma vez?
Solução
Seja
Ω={(ca,ca);(ca,co);(co,ca);(co,co)} e
A={(ca,co);(co,ca)}
P(A)=(#A)/(#Ω)=2/4

Probabilidade frequentista
A definição frequentista baseia-se na frequência relativa de um número grande de realizações do experimento. Mais especificamente, definimos a probabilidade P(A) de um evento A usando o limite da frequência relativa da ocorrência de A em n repetições independentes do experimento, com n tendendo ao infinito, ou seja,
P(A)=lim┬(n→∞)⁡〖1/n*(nº de ocorrencias de A em n repetições independentes)〗
A grande dificuldade da definição frequentista é que os experimentos nunca são realizados infinitas vezes, logo não há como avaliar a probabilidade de forma estrita.

Probabilidade Geométrica
Consideremos um experimento que consiste em escolher um ponto ao acaso em uma região Ω⊂R^p. A definição geométrica da probabilidade P(A) de um evento A⊂Ω é dada por:
P(A)=(volume de A)/(volume de Ω )
Nota: Naturalmente, em espaços unidimensionais (p = 1) o volume é substituído por comprimento e em espaços bidimensionais (p = 2), por área.

Probabilidade subjectiva
A definição subjectiva de probabilidade baseia-se em crenças e/ou informações do observador a respeito do fenómeno em estudo.

Exemplo 6.4 (Definição subjectiva)
Consideremos o evento A =”chove em Nampula”. Para alguém em Maputo podemos ter a seguinte avaliação: P(A) =0,5. Para alguém de Inhambane, podemos ter P(A) =0.8 se chove em Inhambane e P(A)=0.3 se não chove em Inhambane. Para alguém de Nampula, P(A) =1 se está chovendo em Nampula e P(A) = 0 se não está chovendo em Nampula.

Teoria dos conjuntos: revisão de conceitos
Os conjuntos da sequência (finita ou enumerável) A_1,A_2,… são disjuntos 2 a 2, se A_i∩A_j=∅,∀i≠j

Ω

Axiomas
Não vamos nos preocupar, doravante, com o problema de como definir probabilidade para cada experimento. Simplesmente, vamos admitir que as probabilidades estão definidas em um certo conjunto γ de eventos, chamados eventos aleatórios. Vamos supor que a todo A∈γ seja associado um número real P(A), chamado de probabilidade de A, de modo que os axiomas a seguir sejam satisfeitos.
Axioma 1: P(A)≥0,∀A∈γ;
Axioma 2: P(Ω)=1
Se A_1,A_2,…∈ γ são disjuntos 2 a 2, então:
P(⋃_(n=1)^∞▒A_n )=∑_(n=1)^∞▒P(A_n )
Um espaço de probabilidade é um trio Ω,γ,P, onde
Ω é um conjunto não vazio,
γ é um conjunto de eventos aleatórios e
P é uma probabilidade em γ

Principais Teoremas
Probabilidade do vazio
Teorema 6.1: P(∅)=0
Demostração: Temos que:
P(Ω)=P(Ω∪∅∪∅∪∅∪…)→
P(Ω)+P(∅)+P(∅)+⋯→
0=P(∅)+P(∅)+..→
P(∅)=0

Probabilidade da união finita de eventos disjuntos 2 a 2
Teorema 6.2: Se A_1,A_2,….,A_n∈γ são eventos aleatórios disjuntos 2 a 2 então:
P(⋃_(n=1)^∞▒A_n )=∑_(n=1)^∞▒P(A_n )
Demostração: Fazendo A_i=∅ ,∀i∈{n+1,n+2,…},temos que:
P(⋃_(i=1)^∞▒A_i )=∑_(i=1)^∞▒P(A_i ) =(pelo axioma 3)=
∑_(i=1)^∞▒〖P(A_i)〗=∑_(i=1)^n▒〖P(A_i)〗+∑_(i=n+1)^∞▒〖P(A_i)〗=
∑_(i=1)^n▒〖P(A_i)〗+∑_(i=n+1)^∞▒〖P(∅)〗=(pelo teorema 1)=
∑_(i=1)^n▒〖P(A_i)〗+∑_(i=n+1)^∞▒0=∑_(i=1)^n▒〖P(A_i)〗

Probabilidade do evento complementar
Teorema 6.3: P(A^c )=1-P(A),∀i∈γ
Demostração: Temos que:
Ω=A∪A^c→
P(Ω)=(A∪A^c )→(aplicando os axiomas 2 e 3)→
1=P(A)+P(A^c )→
P(A^c )=1-P(A)

Probabilidade de eventos aninhados
Teorema 6.4: ∀A,B∈γ;A⊂B→P(A)≤P(B)
Demostração: Pelo axioma 1, temos que P(B∩A^c )≥0. Assim:
P(B∩A^c )≥0→
P(B∩A^c )+P(A)≥P(A)→(pelo axioma 3)→
P((B∩A^c )∪P(A))≥P(A)→
P(A)≤P(B)

Probabilidade entre 0 e 1
Teorema 6.5: 0≤P(A)≤1,∀A∈γ
Demostração: Como A⊂Ω, aplicando o teorema 6.4 temos que:
P(A)≤P(Ω) → (pelo axioma 2) → P(A)≤1
Além disso, pelo axioma 1, P(A)≥0.Logo 0≤P(A)≤1

Probabilidade da subtracção
Teorema 6.6: ∀A,B∈γ,P(A∩B^c )=P(A)-P(A∩B)
Demostração: Temos que:
(A∩B^c )∪(A∩B)=A→
P((A∩B^c )∪(A∩B))=P(A)→
P(A∩B^c )+P(A∩B)=P(A)→
P(A∩B^c )=P(A)-P(A∩B)
Nota: Em alguns livros o evento A∩B^cé definido como A- B. Aqui não adoptamos esta notação para evitar confusões entre a subtracção de probabilidades e a subtracção de conjuntos.

Desigualdade de Boole
Teorema 6.7: Supondo que A_1,A_2,A_3,… são eventos aleatórios,
P(⋃_(i=1)^∞▒A_i )≤∑_(i=1)^∞▒〖P(〗 A_i)
Demostração: Consideremos a seguinte sequência de eventos:
B_1=A_1
B_2=A_2∩〖A_1〗^c
B_3=A_3∩(A_1∩A_2 )^c
…
B_3=A_3∩(A_1∩A_2 )^c
B_i=A_i∩(A_1∪A_2∪…∪A_(i-1) )^c
Note que esta sequência é de eventos disjuntos 2 a 2. Além disso, temos que B_i⊂A_i, o que implica 〖P(B〗_i)⊂〖P(A〗_i). Deste modo, temos que:
P(⋃_(i=1)^∞▒A_i )=P(⋃_(i=1)^∞▒B_i )→pelo axioma 3
∑_(i=1)^∞▒〖P(〗 B_i)≤∑_(i=1)^∞▒〖P(〗 A_i)

Teorema 6.8: Supondo que A_1,A_2,A_3,…,A_n são eventos aleatórios, temos que:
P(⋃_(i=1)^∞▒A_i )≤∑_(i=1)^∞▒〖P(〗 A_i)
Demonstração: Análoga á demostração do resultado anterior

Probabilidade da união de 2 eventos
Teorema 6.9: Se A e B forem eventos quaisquer, então:
P(A∪B)=P(A)+P(B)-P(A∩B)
Demonstração:
P(A∪B)=P((A∩B^c )∪B)
repare que A∩B^c e B são disjuntos→
P(A∩B^c )+P(B)=P(A)+P(B)-P(A∩B)

Probabilidade da união de 3 eventos
Teorema 6.10: Se A, B e C forem eventos quaisquer, então:
P(A∪B∪C)=P(A)+P(B)+P(C)-P(A∩B)-P(A∩C )-P(B∩C)+P(A∩B∩C)
Demonstração:
P(A∪B∪C)=(pelo teorema 6.9) temos:
P(A∪B)+P(C)-P((A∪B)∩C) (pelo teorema 6.9) temos:
P(A)+P(B)+P(C)-P(A∩B)-P((A∪B)∩C)
P(A)+P(B)+P(C)-P(A∩B)-P((A∩C)∪(B∩C))→
=(pelo teorema 6.9)=
P(A)+P(B)+P(C)-P(A∩B)-P(A∩C )-P(B∩C)+P(A∩B∩C)

Probabilidade da união finita
Teorema 6.11: Supondo uma sequência A_1,A_2,A_3,…,A_n de eventos aleatórios, temos que:
〖P(A〗_1∪ A_2∪…∪ A_n)=∑_(i=1)^n▒〖P(〗 A_i)-∑_(i<j=2)^n▒〖P(〗 A_i∩A_j)+∑_(i<j<r=2)^n▒〖P(〗 A_i∩A_j∩A_r)+(-1)^(n-1) 〖P(A〗_1∩ A_2∩…∩ A_n)
Demonstração: Por indução finita
Nota: Os dois últimos teoremas são casos particulares deste teorema

Probabilidade condicional e principais teoremas
Probabilidade Condicional
Seja (Ω,γ,P) um espaço de probabilidade. Se B∈γ e P(B)> 0, a probabilidade condicional de A∈γ dado B é definida por:
P(A\B)=(P(A∩B))/(P(B))
Nota:
Se P(B)=0,P(A\B) pode ser arbitrariamente definida. Mas por independência, é conveniente fazer P(A\B)=P(A) como veremos adiante.
Decorre da definição que P(A∩B)=P(B)*P(A\B) e esta igualdade é válida quando P(B)=0

Exemplo 6.5 (Probabilidade Condicional)
Suponhamos que uma fábrica possui 310 máquinas de soldar. Algumas destas máquinas são eléctricas (E), enquanto outras são manuais (M). Por outro lado, temos também que algumas são novas (N) e outras são usadas (U). A tabela abaixo informa o número de máquinas de cada categoria.
Eléctricas (E) Manuais (M)
Novas (N) 10 60
Usadas (U) 200 40
Sabendo que uma determinada peça foi soldada usando uma máquina nova, qual é a probabilidade de ter sido soldada por uma máquina eléctrica?
Solução
P(E\N)=(P(E∩N))/(P(N))=10/70=0.1429
Sabendo que uma determinada peça foi soldada usando uma máquina eléctrica, qual é a probabilidade de ter sido soldada por uma máquina nova?
Solução
P(N\E)=(P(N∩E))/(P(E))=10/210=0.0476

Teorema 6.12: Uma probabilidade condicional dado um evento B qualquer é uma probabilidade.
Demonstração:
Para mostrar que a probabilidade condicional é uma probabilidade, devemos verificar que:
P(A\B)≥0,∀A∈γ
P(Ω\B)=1 e que
Se A_1,A_2,A_3,…∈γ são disjuntos 2 a 2, então:
P(⋃_(i=1)^∞▒〖A_i\B〗)=∑_(i=1)^∞▒〖P(〗 A_i\B)
Vamos verificar então as condições acima.
P(A\B)=(P(A∩B))/(P(B)),com P(A∩B)≥0e P(B)>0 temos que P(A\B)≥0 e a 1ª condição foi satisfeita.
Temos também que P(Ω\B)=(P(Ω∩B))/(P(B))=(P(B))/(P(B))=1 e a 2ª condição foi satisfeita.
Por fim temos:
P(⋃_(i=1)^∞▒〖A_i\B〗)=P((⋃_(i=1)^∞▒A_i )∩B)/P(B) =((⋃_(i=1)^∞▒〖A_i∩B〗))/P(B) =(pelo axioma 3)
=(∑_(i=1)^∞▒〖P(〗 A_i∩B))/(P(B))=∑_(i=1)^n▒(P(A_i∩B))/(P(B))=∑_(i=1)^∞▒〖P(〗 A_i\B)

Teorema de multiplicação
Teorema 6.13: Seja (Ω,γ,P) um espaço de probabilidade com A_1,A_2,A_3,…∈γ então:
〖P(A〗_1∩ A_2∩…∩ A_n)=
=P(A_n\A_1∩…∩A_(n-1))*P(A_(n-1)\A_1∩…∩A_(n-2))*…*P(A_2\A_1)*P(A_1)
Demonstração: Por indução finita
Nota: Especificamente, para n=2, temos:
P(A_1∩A_2 )= P(A_2\A_1 )*P(A_1 )=P(A_1\A_2)*P(A_2)

Partição de um conjunto
Uma sequência A_1,A_2,A_3,… finita ou enumerável de conjuntos é uma partição de um conjunto A quando:
• For uma sequência de conjuntos disjuntos 2 a 2 e
⋃_i▒〖A_i=A〗

Teorema de probabilidade total
Teorema 6.14: Seja (Ω,γ,P) um espaço de probabilidade. Se a sequência (finita ou enumerável) A_1,A_2,A_3,…∈γ formar uma partição de Ω, então:
P(B)=∑_i▒〖P(B\A_i)〗*P(A_i)

Demonstração:
P(B)=⋃_i▒〖(〖B∩A〗_i )=(pelo axioma 3)〗
=∑_i▒〖P(B∩A_i)〗=∑_i▒〖P(B\A_i)〗*P(A_i)

Exemplo 6.6 (Teorema de Probabilidade Total)
Uma empresa produz circuitos em três fábricas, denotadas por I, II e III. A fábrica I produz 40% dos circuitos, enquanto a II e a III produzem 30% cada uma. As probabilidades de que um circuito produzido por essas fábricas não funcione são 0.01, 0.04 e 0.03 respectivamente. Escolhido ao acaso um circuito da produção conjunta das três fábricas, qual é a probabilidade do circuito não funcionar?
Solução
Considere os eventos:
I=o circuito foi produzido pela fábrica I
II=o circuito foi produzido pela fábrica II
III=o circuito foi produzido pela fábrica III
B=o circuito não funciona
Primeiro repare que os conjuntos I, II e III formam uma partição do espaço amostral.
Assim, aplicando o teorema da probabilidade total, temos que:
P(B)=P(B\I)*P(I)+P(B\II)*P(II)+P(B\III)*P(III)
P(B)=0.01*0.4+0.04*0.3+0.03*0.3=0.025
Teorema de Bayes
Teorema 6.14: Seja (Ω,γ,P) um espaço de probabilidade. Se a sequência (finita ou enumerável) A_1,A_2,A_3,…∈γ formar uma partição de Ω, então:
P(A_i\B)=(P(B\A_i )*P(A_i))/(∑_j▒〖P(B\A_j)〗*P(A_j))

Demonstração:
P(A_i\B)=P(A_i∩B)/P(B) =(P(B\A_i )*P(A_i ))/P(B) =(pelo teorema de probabilidade total)

Exemplo 6.7 (Teorema de Bayes)
Uma empresa produz circuitos em três fábricas, denotadas por I, II e III. A fábrica I produz 40% dos circuitos, enquanto a II e a III produzem 30% cada uma. As probabilidades de que um circuito produzido por essas fábricas não funcione são 0.01, 0.04 e 0.03 respectivamente. Escolhido ao acaso um circuito da produção conjunta das três fábricas, qual é a probabilidade do circuito ter sido produzido pela fábrica I?
Solução
Considere os eventos:
I=o circuito foi produzido pela fábrica I
II=o circuito foi produzido pela fábrica II
III=o circuito foi produzido pela fábrica III
B=o circuito não funciona
Primeiro repare que os conjuntos I, II e III formam uma partição do espaço amostral.
Assim, aplicando o teorema da probabilidade total, temos que:
P(A_1\B)=(P(B\I)*P(I))/(P(B\I)*P(I)+P(B\II)*P(II)+P(B\III)*P(III) )
P(A_1\B)=(0.01*0.4)/(0.01*0.4+0.04*0.3+0.03*0.3=0.025)=0.16

Sensibilidade, Especificidade, Valor Preditivo Positivo e Negativo
Em qualquer dado teste administrado a uma dada população é importante calcular a sensibilidade, a especificidade, o valor preditivo positivo e o valor preditivo negativo, para determinar o quão útil o teste é para detectar doenças ou características de uma certa população. Se deseja usar um teste para sobre características específicas numa amostra da população, é importante saber:
O quão provável é que o teste detecte a presença de uma característica em alguém com a característica (sensibilidade)?
O quão provável é que o teste detecte a ausência de uma característica em alguém sem a característica (especificidade)?
O quão provável é que alguém com um resultado positivo no teste verdadeiramente tenha a característica (valor preditivo positivo)?
O quão provável é que alguém com um resultado negativo no teste verdadeiramente não tenha a característica (valor preditivo negativo)?
Suponhamos um exame médico qualquer com dois resultados possíveis. Vamos assumir que X = 1 quando o exame acusa a doença e que X = 0 caso contrário. Por outro lado, vamos usar θ para indicar o verdadeiro estado do indivíduo submetido ao exame, onde θ=1 indica um individuo doente e θ=0 indica um indivíduo saudável, então:
Sensibilidade= P(X=1\θ=1 )
Especificidade=P(X=0\θ=0 )
Valor preditivo positivo=P(θ=1 \X=1)
Valor preditivo negativo=P(θ=0 \X=0)

Exemplo 6.8 (Sensibilidade, Especificidade, Valor Preditivo Positivo e Negativo)
Recomenda-se que, a partir dos 40 anos, as mulheres façam mamografias anuais. Nesta idade, aproximadamente uma em cada 100 mulheres são portadoras de um tumor
assintomático de mama.
Seja θ uma quantidade desconhecida que indica se uma paciente desta faixa etária tem a doença ou não. Se ela possui a doença então θ=1, caso contrário θ=0. Assim, podemos assumir que P(θ=1)=0.01 e P(θ=0)=0.99
Sabe-se que a mamografia indica a doença em 80% das mulheres com câncer de mama, mas esse mesmo resultado ocorre também com 9,6% das mulheres sem o câncer. Assim, seja X uma variável aleatória associada ao resultado da mamografia, de modo que se X = 1 o exame acusou a doença e X = 0 caso contrário. Temos então que:
P(X=0\θ=0 ) (especificidade: exame não acusar sem a doença)
P(X=1\θ=1 ) (sensibilidade: exame acusar com a doença)
Imagine agora que você encontra uma amiga de 40 e poucos anos aos prantos, desesperada, porque fez uma mamografia de rotina e o exame acusou a doença. Qual a probabilidade de ela ter um câncer de mama?
Solução
P(θ=1 \X=1)=(P(X=1\θ=1 )*P(θ=1))/(P(X=1\θ=1 )*P(θ=1)+P(X=1\θ=0)*P(θ=0) )
P(θ=1 \X=1)=(0.80*0.01)/(0.80*0.01+0.96*0.99)=0.0776
Logo, a probabilidade dela ter a doença é de aproximadamente 7,8%.

Independência
Independência entre dois eventos
Dois eventos aleatórios A e B são independentes quando:
P(A∩B)=P(A)*P(B)
P(A\B)=P(A)
P(B\A)=P(B)

Independência de eventos dois a dois
Seja {A_i:i∈I} uma colecção de eventos aleatórios indexada por um conjunto (de índices) I. Os eventos desta colecção são ditos independentes 2 a 2 se:
P(A_i∩A_j )=P(A_i )*P(A_j )∀i,j∈I tais que i≠j

Independência mútua
Seja B={A_i:i∈I} uma colecção de eventos aleatória indexada por um conjunto (de índices) I. Os eventos desta colecção são (mutuamente) independentes se, para toda subfamília finita {A_i1,A_i2,…,A_in} de eventos em B, tivermos:
P(A_i1,A_i2,…,A_in )=P(A_i1 )*P(A_i2 )…P(A_in)
Em particular, para todas as subfamílias (A_i,A_j ) com i≠j,temos que:
P(A_i∩A_j )=P(A_i )*P(A_j)
Logo, B é uma colecção de eventos independentes 2 a 2.

Pesquisar neste blogue

Publicações Académicas

Probabilidade

Comentários

Enviar um comentário

Mensagens populares deste blogue

Técnicas de amostragem (Autor: Filipe Mahaluça)

Exercicios (Estatística Descritva) : Filipe Mahaluça

Organização de dados em tabelas e gráficos (Autor: Filipe Mahaluça)