Universidade Federal do Rio Grande do Norte
Centro de Ciencias Exata e da Terra
Programa de Pos-Graduacao em Matematica Aplicada e Estatıstica
Allyson Fernandes Liandro
A Distribuicao F Generalizada para SelecionarModelos de Sobrevivencia com Fracao de Cura
Natal, julho de 2014
Allyson Fernandes Liandro
A Distribuicao F Generalizada para SelecionarModelos de Sobrevivencia com Fracao de Cura
Trabalho apresentado ao Programa dePos-Graduacao em Matematica Aplicada eEstatıstica da Universidade Federal do RioGrande do Norte, em cumprimento com asexigencias legais para obtencao do tıtulode Mestre.
Area de Concentracao: Probabilidade eEstatıstica
Orientadora:
Profa. Dra. Dione Maria Valenca
Natal, julho de 2014
Allyson Fernandes Liandro
A Distribuicao F Generalizada para SelecionarModelos de Sobrevivencia com Fracao de Cura
Trabalho apresentado ao Programa dePos-Graduacao em Matematica Aplicada eEstatıstica da Universidade Federal do RioGrande do Norte, em cumprimento com asexigencias legais para obtencao do tıtulode Mestre.
Area de Concentracao: Probabilidade eEstatıstica
Aprovado em: / /
Banca Examinadora:
Profa. Dra. Dione Maria Valenca
Departamento de Estatıstica - CCET/UFRN
Orientadora
Prof. Dr. Bernado Borba de Andrade
Departamento de Estatıstica - CCET/UFRN
Examinador Interno
Prof. Dr. Juvencio Santos Nobre
Departamento de Estatıstica e Matematica Aplicada - CC/UFC
Examinador Externo
Dedicatoria
A todos que me ajudaram nessa conquista.
i
Agradecimentos
Primeiramente, agradeco a Deus por me dar forcas de onde as vezes nem tinha. Foi
mais uma etapa rumo ao meu sonho vencida.
Agradeco tambem a Nossa Senhora do Carmo. Sei que sempre esteve comigo me
protegendo. Obrigado!
Agradecer a minha mae Rainete pela paciencia e por sempre me incentivar ate
mesmo na minha decisao de ir a Natal cursar o mestrado. Sei que foi difıcil me ver
longe, mas sempre voltei quando pude. E ao meu pai Francisco por sempre me orientar
a continuar estudando e fazer por onde ser o melhor.
Agradeco aos meus irmaos Anderson e Adson por todo o apoio e ajuda que sempre
me deram. Obrigado por tudo!
Agradeco a minha noiva Izabele, por sempre acreditar em mim quando eu nem
tinha mais esperancas. Mesmo longe, estavamos sempre juntos. A cada dia acredito
mais que voce e a pessoa certa! Essa vitoria e para voce e meu filho, Pedro Emanuel.
A minha orientadora Dione Maria Valenca pela rigidez e carinho de uma mae.
Nunca irei esquecer aquelas palavras da Defesa! Voce acreditou em mim ate nos mo-
mentos em que eu nao fiz por onde. Obrigado por tudo! Espero ainda trabalhar com
voce por mais vezes, se assim me permitir.
Ao Professor Bernado Borba de Andrade, pela contribuicao desde a Pre-Qualificacao
ate a Defesa desse trabalho. Mais do que isso, pela formacao academica e pela paciencia.
Sei que nos veremos novamente algum dia.
Ao Professor Juvencio Santos Nobre por despertar meu interesse pela Estatıstica
na epoca da graduacao na UFC. Nao sei o que viu em mim, mas sei que me ajudou o
suficiente para nao desistir e terminar o curso. Obrigado tambem por ter aceitado a
estar na minha banca de Defesa. Farei o possıvel para atender suas expectativas em
mim.
Ao meu amigo Marcio Jose, meu amigo desde quando eramos criancas, que me
apresentou mesmo que sem querer aquela que seria minha paixao, a Estatıstica. Entrei
querendo mudar de curso, e acabei ficando...
Aos meus amigos George e Romualdo por tantos momentos vividos na infancia.
Mesmo nos vendo pouco, sei que nossa amizade vai durar muito!
Aos meus amigos da GC (galera da calcada):
Henrique, por varias vezes me ajudando a continuar em frente e pelas conversas jogadas
fora sobre varios assuntos. Ainda e so o comeco da nossa caminhada!
Joao, por varios momentos que um deu forca ao outro. Sei que a estrada e ardua, mas
seremos recompensandos, tenho certeza!
Hemerson, pelos conselhos e principalmente o incentivo. Sempre jogaremos, alem de
conversa fora, varias partidas de video game.
Joao Felipe, pela amizade de sempre e varios papos sobre todos os assuntos.
Atila e Saulo por tudo!
Sei que nossos caminhos se separaram, mas sei que um dia nos reuniremos novamente
naquela calcada!
A todos os professores que eu tive aula na UFC, em especial ao Professor Joao
Maurıcio Araujo Mota pelo incentivo e pela paciencia em varios momentos. Obrigado
por me auxiliar sempre que precisei, principalmente no momento que procurei um
mestrado. Voce mostrou a porta e ainda me incentivou a entrar. E agradeco tambem
a Professora Silvia Maria de Freitas pela formacao profissional e pessoal. Obrigado
tambem por me ajudar com meu mestrado. Serei grato a todos voces!
Aos professores do PPGMAE - UFRN, pela amizade e por sempre se preocupar
com o aluno: Pledson, Andre Pinho, Andre Gustavo, Carla Vivacqua e Nir Cohen.
Agradeco tambem a Professora Ivone Salsa pela orientacao na Iniciacao a Docencia.
Me ensinou que a arte de ensinar e tao bela quanto a arte de estudar.
Agradeco tambem aos funcionarios do CCET, em especial o Russinho. Quero te
ver um dia aqui no Ceara para comer um bom peixe!
Agradeco aos meus amigos do PPGMAE, em especial a Antonio Marcos e Anna
Rafaella por estar ao meu lado sempre que precisei. Por muitos dias difıceis e muitas
alegrias conquistadas. Choramos e rimos juntos! Sei que voces nao puderam ir a minha
Defesa, mas sei que estiveram comigo em pensamento e coracao. Agradeco ao Rumenick
por me ajudar sempre que precisei, principalmente no termino desse trabalho! Tambem
agradeco a Andressa, Bruno, Jocelanio, Herica, Alysson Lıvio, Wenia, Fabio Azevedo
(nao esquecerei aquelas palavras que me disse antes de ir embora para Fortaleza),
Renato, Eduardo, July e tantos outros que estiveram comigo nesse tempo em Natal.
Quero ver todos voces novamente algum dia.
A CAPES pelo apoio financeiro.
iii
“Nao ha vergonha em errar,
vergonha e nao ter dado tudo de
si por medo de errar.”
(Mamoru Endo)
Resumo
A analise de sobrevivencia parametrica modela o tempo ate a ocorrencia de um
evento com base no ajuste de modelos probabilısticos fazendo uso frequente de modelos
flexıveis para a escolha de um modelo mais simples e facil de interpretar. Nesse sentido,
a distribuicao F generalizada tem a vantagem de incluir varias distribuicoes importantes
como casos especiais, com Weibull, log-normal, log-logıstica, entre outras. Modelos
de sobrevivencia que tratam de estudos em que um percentual dos indivıduos nao
apresentam a ocorrencia do evento de interesse, mesmo acompanhados por um longo
perıodo de tempo, sao chamados de modelos de longa duracao ou modelos com fracao
de cura e vem sendo estudados nos ultimos anos por diversos autores. Neste contexto,
este trabalho tem como objetivo o estudo de caracterısticas teoricas e computacionais
associadas ao ajuste do modelo F generalizado com fracao de cura.
Palavras-chave: Analise de sobrevivencia, fracao de cura, F generalizada.
v
Abstract
The parametric analysis of survival models the time until the occurrence of an event
based on the setting of probabilistic models making frequent use of flexible models for
choosing a simpler and easier to interpret model. In this sense, the generalized F
distribution has the advantage to include several important distributions as special
cases, with Weibull, lognormal, log-logistic and others. Survival models dealing with a
study on percentage of individuals do not have the occurrence of the event of interest,
whether or not accompanied by a long period of time, they are called long-term survival
models or cure rate models and has been studied in recent years by several authors.
In this context, this work aims to study theoretical and computational characteristics
associated with fitting the generalized F cure rate models.
Keywords: Survival analysis, cure rate, generalized F.
vi
Sumario
1 Introducao 1
1.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Descricao dos capıtulos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Analise de Sobrevivencia 3
2.1 Conceitos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 Modelo de posicao e escala . . . . . . . . . . . . . . . . . . . . . 4
2.1.2 Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Modelos de sobrevivencia com fracao de cura . . . . . . . . . . . . . . . 5
2.2.1 Abordagem unificada . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.2 Modelo de mistura padrao . . . . . . . . . . . . . . . . . . . . . 7
2.2.3 Modelo de tempo de promocao . . . . . . . . . . . . . . . . . . 7
2.2.4 Funcao de verossimilhanca . . . . . . . . . . . . . . . . . . . . . 8
3 A Distribuicao F Generalizada com Fracao de Cura 10
3.1 A distribuicao F generalizada . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Reparametrizacao proposta em Prentice (1975) . . . . . . . . . 14
3.1.2 Casos particulares da F generalizada . . . . . . . . . . . . . . . 15
3.2 Distribuicao F generalizada com fracao de cura . . . . . . . . . . . . . 15
3.2.1 Inferencia para o modelo FG com fracao de cura . . . . . . . . . 17
4 Aplicacoes 21
4.1 Cancer de ovario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Cancer de Colon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3 Dados simulados no R . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5 Conclusoes 29
vii
A Algumas definicoes e demonstracoes 31
A.1 Funcao gama e funcao poligama . . . . . . . . . . . . . . . . . . . . . . 31
A.2 Funcoes beta e beta incompleta . . . . . . . . . . . . . . . . . . . . . . 31
A.3 Obtencao da funcao de verossimilhanca marginal . . . . . . . . . . . . 32
A.4 Demonstracao para a equacao 3.2 . . . . . . . . . . . . . . . . . . . . . 33
A.5 Demonstracao para a equacao 3.3 . . . . . . . . . . . . . . . . . . . . . 34
A.6 Demonstracao para a equacao 3.4 . . . . . . . . . . . . . . . . . . . . . 34
B Comandos no R 36
viii
Capıtulo 1
Introducao
Em modelos de sobrevivencia, estamos interessados no tempo ate a ocorrencia de um
evento de interesse, comumente denominado tempo de sobrevivencia ou de vida. Em
alguns casos, um percentual dos indivıduos pode nao apresentar o evento de interesse,
mesmo acompanhados por um longo perıodo de tempo. Esses modelos sao chamados
de modelos de sobrevivencia com fracao de cura. Os modelos mais conhecidos nesta
classe sao o modelo de mistura padrao, desenvolvido em Berkson & Gage (1952) e um
modelo proposto por Yakovlev et al. (1993), mais tarde chamado de modelo de tempo
de promocao. Rodrigues et al. (2009) propoem uma extensao dos modelos de longa
duracao na qual os modelos anteriores sao casos particulares.
A escolha de submodelos por um modelo mais amplo e de grande importancia
em varias areas da estatıstica, como, por exemplo, em analise de sobrevivencia. A
distribuicao F generalizada e utilizada por incluir varias outras distribuicoes muito
importantes em modelos de sobrevivencia, como a gama generalizada, a log-logıstica, a
Weibull e a log-normal. Neste sentido, Prentice (1975) discutiu a utilizacao da famılia
F generalizada para dados sem censura e uma reparametrizacao de forma a facilitar a
escolha de submodelos. Kalbfleisch & Prentice (2002) estudam algumas propriedades
importantes da distribuicao F generalizada. Alguns autores como Hogg & Ciampi
(1985) e Brown et al. (1992) relatam problemas na maximizacao da verossimilhanca da
F generalizada.
Peng et al. (1998), que representa a principal referencia deste trabalho, propoem
um modelo de tempo de falha acelerado F generalizado com fracao de cura, com base
em um modelo de mistura padrao. Neste artigo o modelo proposto foi utilizado para
ajustar dados de sobrevivencia de pacientes portadores de linfoma nao-Hodgkin. Peng
(1999) desenvolve um pacote, chamado gfcure, desenvolvido para ajuste de modelos
de sobrevivencia F generalizado (e diversos casos particulares) com e sem fracao de
1
1.1 Objetivo 2
cura, com base no software estatıstico R (R Development Core Team, 2013). Peng et
al. (1998) comentam que podem ocorrer problemas de maximos locais na maximizacao
da verossimilhanca do modelo de mistura padrao F generalizada.
1.1 Objetivo
O objetivo deste trabalho e estudar o modelo log-F generalizado com fracao de cura
com base na extensao proposta por Rodrigues et al. (2009). Especificamente temos
como objetivos:
1. Descrever as propriedades teoricas do modelo log-F generalizada com fracao de
cura via abordagem unificada e de alguns submodelos;
2. Estudar os procedimentos de maxima verossimilhanca para a estimacao dos pa-
rametros, a implementacao computacional e os procedimentos para a selecao de
submodelos;
3. Por fim, usar o modelo de mistura padrao F generalizada para selecionar sub-
modelos com fracao de cura, adequados ao ajuste de dados reais, disponıveis na
literatura.
1.2 Descricao dos capıtulos
No Capıtulo 2, temos uma breve revisao de analise de sobrevivencia e de modelos
de sobrevivencia com fracao de cura. No Capıtulo 3, abordamos sobre a distribuicao F
generalizada com as principais definicoes, a relacao entre seus submodelos, a funcao de
verossimilhanca do modelo F generalizado com fracao de cura e a escolha de modelos.
No Capıtulo 4 ajustamos o modelo de mistura padrao F generalizado para tres conjun-
tos de dados. O Apendice A e reservado para algumas demonstracoes. O Apendice B
apresenta os comandos utilizados nos Capıtulos 3 e 4, feitos no software R.
Capıtulo 2
Analise de Sobrevivencia
Neste capıtulo fazemos uma breve introducao aos principais conceitos de analise de
sobrevivencia. Informacoes mais detalhadas podem ser obtidas em Lawless (2003) e
Colosimo & Giolo (2006), por exemplo.
2.1 Conceitos basicos
Seja T uma variavel aleatoria absolutamente contınua e positiva, com funcao de
distribuicao F, representando o tempo ate a ocorrencia de um evento.
Definimos a funcao de sobrevivencia de T como sendo
S(t) = P (T > t) =
∫ ∞t
f(x)dx = 1− F (t). (2.1)
Esta funcao representa a probabilidade de um ıtem (ou indivıduo) sobreviver pelo
menos t unidades de tempo. Algumas vezes S(t) e referida como funcao de confiabili-
dade. Por definicao, temos que S(t) e uma funcao decrescente contınua, com S(0) = 1
e S(∞) = limt→∞ S(t) = 0.
A funcao densidade pode ser obtida atraves da funcao de sobrevivencia, da seguinte
forma:
f(t) = −dS(t)
dt. (2.2)
O risco ou taxa de falha em um intervalo [t, t + ∆t) e definido como sendo a pro-
babilidade do evento ocorrer neste intervalo, dado que nao ocorreu antes de t, dividida
pelo comprimento do intervalo, ∆t.
Se ∆t → 0, temos a taxa de falha instantanea no tempo t condicionada a sobrevi-
3
2.1 Conceitos basicos 4
vencia ate o tempo t. Entao, a funcao de risco associada a T e definida como
h(t) = lim∆t→0
P (t ≤ T < t+ ∆t|T ≥ t)
∆t=f(t)
S(t). (2.3)
Existem varios modelos parametricos usados para analise de dados de sobrevivencia.
Lawless (2003), entre outros autores, descreve estes modelos, onde os principais sao a
Weibull, log-normal, log-logıstica e gama generalizada.
2.1.1 Modelo de posicao e escala
Uma classe ampla de modelos, apresentado em Lawless (2003), e chamada de modelo
de posicao de escala, usada para modelar o logaritmo dos tempos de falha. Seja,
Y = log T . Definindo,
Y = µ+ σε, (2.4)
com µ ∈ R e σ > 0, temos que Y pertence a famılia de posicao e escala com parametros
de posicao µ e escala σ, considerando que ε tem uma distribuicao que nao depende dos
parametros desconhecidos.
Podemos entao representar a funcao densidade de Y por
fY (y;µ, σ) =1
σf
(y − µσ
), y ∈ R (2.5)
em que a f(·) e uma funcao densidade associado a ε.
A funcao de sobrevivencia de Y e
SY (y;µ, σ) = S
(y − µσ
), y ∈ R (2.6)
com S(·) representando a funcao de sobrevivencia associado a ε.
Podemos tambem representar a funcao risco desse modelo a partir de (2.3). Logo
hY (y;µ, σ) =fY (y;µ, σ)
SY (y;µ, σ).
Uma generalizacao dos modelos de posicao e escala para distribuicoes com mais de
dois parametros e apresentada em Lawless (2003). A funcao densidade de ε para este
caso pode depender de um vetor de parametros ρ.
2.2 Modelos de sobrevivencia com fracao de cura 5
2.1.2 Censura
Geralmente dados de tempo de vida apresentam caracteristicas especiais, devido
a presenca de observacoes censuradas, isto e, para alguns indivıduos em estudo nao
sabemos seu tempo exato de vida. O tipo mais comum de censura e a direita, em que
o tempo ate a ocorrencia do evento de interesse e superior ao que foi registrado.
Consideramos tres mecanismos de censura a direita:
• Tipo I: Obervacoes sao acompanhadas ate um perıdodo pre-estabelecido de tempo.
• Tipo II: Observacoes sao acompanhadas ate obter-se um numero pre-determinado
de falhas.
• Aleatorio: Observa-se este tipo de censura quando um indivıduo e retirado do
estudo por uma causa alheia ao proprio estudo.
Figura 2.1: Tipos de censura, sendo as esferas negras as falhas e as brancas as censuras. (Colosimo& Giolo, 2006)
Neste trabalho consideramos a censura aleatoria.
2.2 Modelos de sobrevivencia com fracao de cura
Existem dados de sobrevivencia nos quais uma porcentagem dos indivıduos nao
apresentara a ocorrencia do evento de interesse, mesmo se acompanhados por um longo
perıodo de tempo. Diz-se entao que esses indivıduos sao imunes ao evento de interesse
2.2 Modelos de sobrevivencia com fracao de cura 6
e os modelos de sobrevivencia com presenca de indivıduos imunes sao chamados de
modelos com fracao de cura (tambem chamados de modelos de longa duracao).
2.2.1 Abordagem unificada
Rodrigues et al. (2009) propoem uma extensao dos modelos de longa duracao. Para
uma visao geral do modelo supomos que, para cada indivıduo em um determinado
estudo, N denota o numero de causas ou fatores de risco competindo para a ocorrencia
do evento de interesse, com distribuicao de probabilidade pθ(n) = Pθ(N = n), sendo θ
o parametro da distribuicao. Seja tambem, Ri os tempos ate a ocorrencia do evento
devido a i-esima causa em que R1, ..., RN sao i.i.d., com funcao de sobrevivencia
SR(·) = 1− FR(·).Seja T o tempo ate a ocorrencia do evento de interesse, definido como
T = min{R0, R1, . . . , RN},
com P (R0 = ∞) = 1. Com isso se N = 0 o evento de interesse nunca ocorrera. As
variaveis aleatorias Ri e N sao variaveis latentes, ou seja, nao observaveis, enquanto T
e uma variavel observavel. A funcao de sobrevivencia nesse caso e dada por:
Sp(t) = P (T > t)
= P (T > t,N = 0) + P (T > t,N ≥ 1)
= P (T > t|N = 0)Pθ(N = 0) + P (T > t|N ≥ 1)Pθ(N ≥ 1)
= pθ(0) +∞∑n=1
pθ(n)S(t)n (2.7)
em que, P (T > t|N = 0) = 1 e Pθ(N = 0) = pθ(0). A funcao de sobrevivencia Sp(t) e
dita impropria, pois o limt→∞ Sp(t) > 0.
A fracao de cura e definida como:
limt→∞
Sp(t) = Pθ(N = 0) = pθ(0)
que e tambem interpretado como a proporcao de indivıduos em que nunca vai ocorrer
o evento de interesse.
Podemos reescrever a funcao de densidade a partir da funcao de sobrevivencia, dada
2.2 Modelos de sobrevivencia com fracao de cura 7
em (2.8), de acordo com (2.2):
fp(t) =∞∑n=1
npθ(n)f(t)S(t)n−1. (2.8)
Em analise de sobrevivencia com fracao de cura os modelos mais conhecidos sao os
modelos de mistura padrao e tempo de promocao. O modelo unificado possui ambos
como casos particulares (Rodrigues et al., 2009).
2.2.2 Modelo de mistura padrao
Esse modelo parametrico consiste em uma mistura de distribuicoes representando
a funcao de sobrevivencia dos indivıduos suscetıveis ao evento de interesse, que irao
falhar, e a outra uma funcao degenerada que permite tempos de vida infinitos para os
imunes.
Entao, seja N uma variavel aleatoria seguindo a distribuicao Bernoulli com parame-
tro (1 - θ). O modelo de sobrevivencia com fracao de cura, visto como caso particular
de (2.8) (Rodrigues et al., 2009), e dado por:
Sp(t) = θ + (1− θ)S(t) (2.9)
sendo pθ(0) = θ a fracao de cura.
As funcoes densidade e risco para este modelo sao dadas, respectivamente, por
fp(t) = (1− θ)f(t)
e
hp(t) = f(t)1− θ
θ + (1− θ)S(t).
Ver Maller & Zhou (1996) para mais informacoes.
2.2.3 Modelo de tempo de promocao
Esse modelo consiste em pressupor a existencia de varias causas que competem
entre si para ocorrer no indivıduo o evento de interesse, em que o numero de causas e
considerada uma variavel latente N com distribuicao Poisson com parametro θ. Entao
pode-se mostrar (Fonseca, 2009) que neste caso (2.8) se reduza a:
Sp(t) = e−θ(1−S(t)) (2.10)
2.2 Modelos de sobrevivencia com fracao de cura 8
em que S(t) e uma funcao de sobrevivencia dos tempos Ri, com i = 1, ..., N e pθ = e−θ
a fracao de cura.
As funcoes densidade e risco para este modelo sao dadas, respectivamente, por:
fp(t) = θf(t)e−θ(1−S(t))
e
hp(t) = θf(t).
Ver Ibrahim, Chen & Sinha (2001) para mais informacoes.
Figura 2.2: Comparacao entre a funcao de sobrevivencia da Weibull, Weibull com modelo de misturapadrao e tempo de promocao.
2.2.4 Funcao de verossimilhanca
Suponha uma amostra com n indivıduos e para cada indivıduo i, i = 1, ..., n, sao
associados essas variaveis:
• Ni: Variavel aleatoria discreta com funcao de probabilidade Pθ(Ni = ni) = pθ(ni),
sendo θ um vetor de parametros desconhecidos;
• Rij: Variaveis i.i.d. nao observaveis representando o tempo ate a ocorrencia do
evento de interesse devido a j-esima causa ou risco, j = 1, ..., Ni, com funcao
de distribuicao F (·;ψ), funcao de sobrevivencia S(·;ψ) = 1 − F (·;ψ) que nao
dependem de Ni, sendo ψ um vetor de parametros desconhecidos;
2.2 Modelos de sobrevivencia com fracao de cura 9
• T ∗i : Tempo de falha observado, dado por T ∗i = min{Ti;Ci}, com Ti = min{Ri0,
Ri1, ..., RiNi} e Ci o tempo de censura para o indivıduo i ;
• δi: Indicador de falha, sendo δi =
{1, se Ti ≤ Ci;
0, se Ti > Ci.
O conjunto dos dados completos e representado por Dc = (n,T∗′, δ′,N)
′, sendo
T∗ = (T ∗1 , ..., T∗n)′, δ = (δ1, ..., δn)
′e N = (N1, ..., Nn)
′e o conjunto de dados observados
por D = (n,T∗′, δ′)′.
Seja φ = (ψ′, θ′)′
o vetor de parametros. A funcao de verossimilhanca de φ, cor-
respondente ao conjunto dos dados completos Dc, admitindo censura nao-informativa,
e dada por:
L(φ;Dc) =n∏i=1
[S(ti;ψ)ni ]1−δi [nif(ti;ψ)S(ti;ψ)ni−1]δipθ(ni)
=n∏i=1
S(ti;ψ)ni−niδi [nif(ti;ψ)]δiS(ti;ψ)niδi−δipθ(ni)
=n∏i=1
[S(ti;ψ)]ni−δi [nif(ti;ψ)]δipθ(ni).
Como a equacao anterior depende das variaveis latentes Ni utiliza-se na pratica uma
verossimilhanca marginal, fazendo o somatorio da distribuicao conjunta (T ∗i , δi, Ni) com
relacao as variaveis nao observaveis Ni.
Entao a funcao de verossimilhanca marginal (Ver Apendice A.3) e dada por
L(φ;D) =n∏i=1
[Sp(ti;φ)ni ]1−δi [fp(ti;φ)]δi . (2.11)
Por razoes teoricas e computacionais, e preferıvel trabalhar com o logaritmo da
funcao de verossimilhanca para a estimacao dos parametros, como dada abaixo:
l(φ;D) = logL(φ;D)
= log
{n∏i=1
[Sp(ti;φ)ni ]1−δi [fp(ti;φ)]δi
}
=n∑i=1
{(1− δi) log[Sp(ti;φ)ni ] + δi log[fp(ti;φ)]}. (2.12)
Capıtulo 3
A Distribuicao F Generalizada com
Fracao de Cura
Nesse capıtulo apresentamos a funcao de distribuicao F generalizada conforme mos-
trado no artigo de Peng et al. (1998), suas propriedades, uma outra parametrizacao
sugerida em Prentice (1975), alem dos seus submodelos. As demonstracoes para alguns
resultados encontram-se no Apendice A.
3.1 A distribuicao F generalizada
Segundo Johnson, Kotz & Balakrishnan (1992), varias “generalizacoes” e diferen-
tes parametrizacoes da distribuicao F foram estudadas ao longo do tempo. A forma
descrita no livro de Kalbflesh & Prentice (2002) e a mais utilizada, pois leva em con-
sideracao o modelo de posicao e escala para se construir a distribuicao.
Seja T0 uma v.a. seguindo a distribuicao F com 2s1 e 2s2 graus de liberdade (Mood,
Graybill & Boes, 1974) cuja a funcao densidade e dada por:
fT0(t0) =
(s1
s2
)s1ts1−10
B(s1, s2)
[1 +
(s1
s2
)t0
]s1+s2t0 ∈ R+, (3.1)
com s1, s2 > 0 e B(s1, s2) a funcao beta (ver Apendice A.2).
Definicao
Seja T = aT b0 (Johnson, Kotz & Balakrishnan, 1992). A v. a. T e dita ter distri-
buicao F generalizada com os parametros a, b, s1 e s2, com a ∈ R e b > 0. A funcao
10
3.1 A distribuicao F generalizada 11
densidade de T e dada a seguir (ver demonstracao no Apendice A.4)
fT (t) =
(s1
s2
)s1(ab)−1
(t
a
) s1b−1
B(s1, s2)
[1 +
(s1
s2
)(t
a
) 1b](s1+s2)
, t > 0. (3.2)
A distribuicao F generalizada, que foi descrita em Prentice (1975), tem como uma
das vantagens incluir outras distribuicoes bastante conhecidas na literatura como casos
particulares, a Weibull, log-normal, log-logistica e a gama generalizada, dentre outras.
Pode-se escrever Y = log T na forma do modelo de posicao e escala, como dada em
(2.4). Dessa maneira,
Y = µ+ σW
em que µ = log a, o parametro de posicao, σ = b, o parametro de escala e sendo
W = log T0.
A variavel W = log T0 representa uma log-F com parametros s1 e s2 (ver Peng et
al., 1998 e Apendice A.5), com funcoes de densidade, sobrevivencia e de risco dadas,
respectivamente, por
fW (w) =
(s1
s2
)s1ews1
B(s1, s2)
[1 +
(s1
s2
)ew](s1+s2)
, w ∈ R, (3.3)
SW (w) = Ik(s2, s1) (3.4)
e
hW (w) =us2(1− u)s1
B(s1, s2)Ik(s2, s1),
com u = 1
1+(s1s2
)ew
e k = s2(s2 + s1ew)−1, sendo Ix(a, b) a funcao beta incompleta (ver
Apendice A.2).
Algumas variacoes de s1 e s2 refletem no comportamento das funcoes de sobrevi-
vencia e de risco, como podem ser vistos nas Figuras 3.1 e 3.2.
A funcao geradora de momentos de W (Kalbfleisch & Prentice, 2002) e dada por
MW (t) =Γ(s1 + t)Γ(s2 − t)
Γ(s1)Γ(s2)
(s1
s2
).
3.1 A distribuicao F generalizada 12
Figura 3.1: Graficos da funcao de sobrevivencia de W.
Figura 3.2: Graficos da funcao risco de W.
A partir da funcao geradora de momentos podemos encontrar a funcao geradora de
cumulantes:
KW (t) = logMW (t)
= log(Γ(s1 + t)) + log(Γ(s2 + t))− log Γ(s1)− log Γ(s2) + t log
(s2
s1
)A esperanca e variancia de W podem ser definidas a partir da funcao geradora de
cumulantes:
E(W ) =∂
∂wKW (t)
∣∣∣∣t=0
= Ψ(s1)−Ψ(s2) + log
(s2
s1
)e
V ar(W ) =∂2
∂w2KW (t)
∣∣∣∣t=0
= Ψ(1)(s1) + Ψ(1)(s2)
com Ψ(a) e Ψ(1)(a) sao decorrentes da funcao poligama (ver Apendice A.1).
Da mesma maneira, assimetria e curtose de W podem ser encontradas a partir da
3.1 A distribuicao F generalizada 13
funcao geradora de cumulantes:
skew(W ) =
∂3
∂w3KW (t)
∣∣∣∣t=0(
∂2
∂w2KW (t)
∣∣∣∣t=0
)3/2=
Ψ(2)(s1)−Ψ(2)(s1)
[Ψ(1)(s1) + Ψ(1)(s1)]3/2
e
kurt(W ) =
∂4
∂w4KW (t)
∣∣∣∣t=0(
∂2
∂w2KW (t)
∣∣∣∣t=0
)2 =Ψ(3)(s1) + Ψ(3)(s1)
[Ψ(1)(s1) + Ψ(1)(s1)]2
com Ψ(2)(a) e Ψ(3)(a) sao decorrentes da funcao poligama.
Os parametros s1 e s2 controlam a assimetria e curtose da distribuicao. Quando
s1 > s2 a distribuicao e assimetrica a direita e se s1 < s2 a assimetria e a esquerda. No
caso de s1 = s2 a distribuicao e simetrica. A Figura 3.3 mostra como fica a densidade
de acordo com a variacao dos parametros de forma da distribuicao W .
Figura 3.3: Graficos da funcao densidade de W.
Podemos reescrever a funcao de distribuicao e sobrevivencia da v. a. Y a partir da
3.1 A distribuicao F generalizada 14
generalizacao do modelo de posicao e escala:
fY (y) =1
σfW
(y − µσ
)
=
(s1
s2
)s1e( y−µ
σ)s1
σB(s1, s2)
[1 +
(s1
s2
)e( y−µ
σ)
](s1+s2), y ∈ R (3.5)
e
SY (y) = SW
(y − µσ
)= Ik(s2, s1) (3.6)
sendo k = s2
(s2 + s1e
y−µσ
)−1
.
Dizemos que Y tem distribuicao log-F generalizada e consideramos com notacao
Y ∼ logFG(µ, σ, s1, s2).
3.1.1 Reparametrizacao proposta em Prentice (1975)
Prentice (1975) propoe uma nova parametrizacao para o modelo logFG para fa-
cilitar a discriminacao entre modelos. Nesta proposta s1 e s2 sao substituıdos pelos
parametros q e p, sendo q ∈ R e p ≥ 0, em que
q =
(1
s1
− 1
s2
)(1
s1
+1
s2
)−1/2
e p =2
s1 + s2
.
Equivalentemente:
s1 =2
q2 + 2p+ q(q2 + 2p)1/2e s2 =
2
q2 + 2p− q(q2 + 2p)1/2.
Para completar a parametrizacao, definimos δ = (s−11 + s−1
2 )1/2 = (q2 + 2p)1/2.
Definimos σ = η/δ. A forma do modelo de posicao e escala para este caso e:
Y = µ+η
δW
A funcao densidade de probabilidade e de sobrevivencia de Y ficam:
fY (y) =δ
ηfW
((y − µ)δ
η
)(3.7)
3.2 Distribuicao F generalizada com fracao de cura 15
e
SY (y) = SW
((y − µ)δ
η
). (3.8)
Segundo Cox (2008), a substituicao final de σ = η/δ nao e necessaria, mas tem uma
vantagem de garantir que tanto a F generalizada e a gama generalizada vao estimar
o mesmo parametro de escala, que e util para a interpretacao do modelo. Por outro
lado, a parametrizacao da forma da funcao risco da F generalizada depende da razao
η/δ no lugar de σ.
3.1.2 Casos particulares da F generalizada
A distribuicao F generalizada e vista como uma grande famılia de modelos co-
nhecidos em analise de sobrevivencia. Peng et al. (1998) e Cox (2008) abordam os
relacionamentos da F generalizada com outros modelos, como descritos na tabela a
seguir:
Tabela 3.1: Modelos obtidos atraves do modelo F generalizado
Restricoes nos parametrosModelo para T Densidade padrao
Original Prentice (1975)
gama generalizada s2 →∞ p = 0 fW (w) =|q|
Γ(q−2)(q−2)q
−2
e[q−1w−q−2 exp(qw)], se q 6= 0
logıstica s1 = s2 = 1 p = 1 e q = 0 fW (w) =ew
(1 + ew)2
log-normal s1, s2 →∞ p = q = 0 fW (w) =1√2πe−
w2
2
Weibull s1 = 1 e s2 →∞ p = 0 e q = 1 fW (w) = ew−ew
3.2 Distribuicao F generalizada com fracao de cura
Considere uma amostra de tamanho n. Para o i-esimo individuo da amostra, com
i = 1, ..., n definimos Ni, de forma analoga ao capıtulo anterior, como o numero de
causas ou fatores de risco competindo para a ocorrencia do evento de interesse, cuja
distribuicao de probabilidade e dada por pθ(ni) = Pθ(Ni = ni), para ni = 0, 1, ....
Para o indivıduo i, sejam Rij, para j = 1, ..., Ni, respectivamente, os tempos ate a
3.2 Distribuicao F generalizada com fracao de cura 16
ocorrencia do evento devido a j-esima causa e considere aqui que logRij, sao variaveis
aleatorias i.i.d. seguindo a distribuicao logF generalizada com parametros µ, σ, s1 e s2,
com funcao de densidade e de sobrevivencia denotadas por fR(·) e funcao SR(·), dadas
respectivamente pelas expressoes (3.5) e (3.6).
Definimos tambem Ti = min{Ri0, Ri1, ..., RiNi}, sendo Ri0 tal que P (R0 = ∞) = 1
e Yi = log(Ti). Entao, de acordo com abordagem unificada para modelos com fracao de
cura descrita no Capıtulo 2, as funcoes de sobrevivencia e densidade de Yi , sao dadas
respectivamente por
Sp(yi;φ) = pθ(0) +∞∑ni=1
pθ(ni)SR(y)ni (3.9)
e
fp(yi;φ) = fR(y)∞∑ni=1
[nipθ(ni)SR(y)ni−1
], (3.10)
sendo φ = (µ, σ, s1, s2,θ) o vetor de parametros e fR(·) e SR(·) as funcoes de densidade
e sobrevivencia das variaveis latentes Rij.
Para os casos particulares em que Ni tem distribuicao Bernoulli(1 - θ) (modelo
de mistura) e Ni tem distribuicao de Poisson(θ) podemos mostrar que as funcoes de
sobrevivencia e densidade sao:
• Modelo de mistura padrao
Sp(y;φ) = θ + (1− θ)SR(y) (3.11)
e
fp(y;φ) = (1− θ)fR(y). (3.12)
• Modelo de tempo de promocao
Sp(y;φ) = exp[−θ(1− SR(y))]
e
fp(y;φ) = θ {fR(y)exp[−θ(1− SR(y))]} .
3.2 Distribuicao F generalizada com fracao de cura 17
3.2.1 Inferencia para o modelo FG com fracao de cura
Considere o conjunto dos dados observaveis representados por D = (n,Y∗′, δ′)′,
em que Y∗ = (Y ∗1 , ..., Y∗n )′, sendo Y ∗i = min{log Ti, logCi} e Ci o tempo de censura,
i-esimo indivıduo, e δ = (δ1, ..., δn)′
representa o vetor de indicadores de falha/censura.
De acordo com a descricao dada na Secao 2.2.4, obtemos o logaritmo da funcao de
verossimilhanca marginal para o vetor de parametros desconhecidos φ = (µ, σ, s1, s2,θ)′
como
l(φ;D) =n∑i=1
(1− δi) log[Sp(yi;φ)] + δi log[fp(yi;φ)]. (3.13)
Estimacao dos Parametros
Com base em (3.13) podemos usar o metodo da maxima verossimilhanca, que con-
siste em obter estimativas dos parametros do modelo os valores que maximizam o
logaritmo da funcao de verossimilhanca. Desejamos entao resolver o sistema de equa-
coes:
U(φ) =∂l(φ;D)
∂φ= 0
Segundo Peng et al. (1998) algumas dificuldades computacionais surgem em maxi-
mizar a funcao de verossimilhanca no modelo de mistura F generalizado. As funcoes
de densidade e sobrevivencia de uma distribuicao F generalizada dependem de uma
funcao beta e uma relacao de beta incompleta, o que as torna difıcil avaliar com preci-
sao quando s1, s2 e σ tem valores extremos. Outros problemas sao de maximos locais
e a obtencao das derivadas da verossimilhanca em relacao a s1 e s2 para maximizar a
verossimilhanca do modelo de mistura padrao.
Peng et al. (1998) descrevem em seu artigo um pacote do S-Plus chamado gfcure,
desenvolvido para ajustar o modelo F generalizado com fracao de cura no caso parti-
cular do modelo de mistura padrao. Em 2005 o pacote e disponibilizado no software
R e e usado em conjunto com o pacote survival. Alem de estimar os parametros
relacionados ao modelo de tempo de falha acelerado, tambem estima os parametros re-
lacionados a fracao de cura. As distribuicoes que podem ser utilizadas no gfcure sao,
alem da F generalizada: exponencial, Weibull, log-normal, gama, rayleigh, log-logıstica,
log-logıstica generalizada e a gama generalizada estendida.
Para estimar os parametros das distribuicoes esse pacote oferece como opcao os
metodos Newton-Raphson, Nelder-Mead ou Simulated Annealing. O ultimo metodo e
recomendado por Peng et al. (1998) para distribuicoes com mais de dois parametros,
como a gama generalizada e a F generalizada. Este pacote nao faz parte do CRAN
3.2 Distribuicao F generalizada com fracao de cura 18
do R, sendo necessario fazer um download dos arquivos para utiliza-lo, o que dificulta
o acesso pelo usuario comum. Nao houve atualizacao desde de 2005, o que deixa o
programa um pouco defasado.
Contudo, o pacote gfcure vem sendo utilizado por diversos autores para ajuste
modelos em aplicacoes a dados de sobrevivencia com fracao de cura: Peng & Carrier
(2002) fazem um estudo de simulacao que compara os modelos parametricos e semipa-
rametricos de fracao de cura. Le et al. (2007) ajustam modelos com fracao de cura em
dados sobre a leucemia linfoblastica aguda em adultos. Martinez et al. (2007) estudam
dados relativos ao retorno de doadores voluntarios de sangue e ajustam ao modelo gama
generalizada estendida com fracao de cura. Hubben et al. (2008) estudam o tratamento
de pacientes infectados com HIV na Italia usando para isso o modelo log-normal. Con-
lon et al. (2011) propoem um metodo de imputacao multipla para dados censurados
em estudos de cancer colorretal com base no modelo log-normal com fracao de cura.
Em todos os casos, as estimativas foram feitas com o auxılio do pacote gfcure.
Selecao de Modelos com Fracao de Cura
A distribuicao F generalizada tem como uma de suas vantagens a possibilidade
de escolha de submodelos, que facilitam na analise de dados. Para isso, desejamos
selecionar o modelo mais adequado para o ajuste.
O teste da razao de verossimilhancas e bastante utilizado para a escolha de mode-
los. Contudo, para testar alguns submodelos da F generalizada a hipotese nula coloca
o parametro na fronteira do espaco parametrico (Peng et al., 1998), mesmo com a para-
metrizacao proposta por Prentice (1975), e isso representa uma violacao das condicoes
de regularidade. Logo, nao se pode garantir a distribuicao assintotica qui-quadrado da
estatıstica da razao de verossimilhancas.
Desta forma, alternativas para o teste da razao de verossimilhancas sao:
• Metodo grafico: Um metodo bastante conhecido em analise de sobrevivencia
compara a curva estimada de Kaplan-Meier (Kaplan & Meier, 1958) com as
curvas de sobrevivencia estimadas conforme os modelos propostos. O modelo
mais adequado e aquele em que sua curva de sobrevivencia mais se aproximar da
curva do estimador Kaplan-Meier.
• AIC: Chamado de criterio de informacao Akaike, desenvolvido por Akaike (1974).
AIC e um ındice de ajuste que leva em consideracao a parcimonia do modelo com
uma penalizacao pelo numero de parametros no modelo. O criterio e definido por
AIC = −2(l(φ, D
))+ 2k
3.2 Distribuicao F generalizada com fracao de cura 19
sendo k e o numero de parametros. O AIC, no entanto, nao funciona bem na
presenca de efeitos aleatorios.
Quanto menor for o valor do AIC, mais adequado e o modelo para um determi-
nado conjunto de dados.
• BIC: Chamado de criterio de informacao Bayesiano, desenvolvido por Schwarz
(1978), leva em consideracao tanto a parcimonia do modelo quanto o numero de
parametros que deve ser estimados para atingir esse grau particular de ajuste,
atraves da imposicao de uma penalidade para o aumento do numero de para-
metros. Diferentemente do AIC, a penalidade para o aumento do numero de
parametros no BIC e maior. O criterio e definido por
BIC = −2(l(φ, D
))+ k log(n)
sendo k e o numero de parametros e n o tamanho da amostra.
Da mesma forma que o AIC, quanto menor o valor do BIC, mais adequado e o
modelo.
Uma simulacao foi feita a fim de avaliar a eficacia dos metodos AIC e BIC para o
modelo F generalizado com fracao de cura, com parametros µ = 3, σ = 5, s1 = 10 e
s2 = 7. Os tamanhos da amostra variam entre 50, 100, 500, 1000 e 5000. As fracoes
de cura sao, para esse caso, de 10%, 30% e 50%. E as censuras sao: 30% e 50% de
censura. Os resultados seguem na Tabela 3.2.
Tabela 3.2: Simulacao para avaliar o desempenho do AIC e BIC para o modelo F generalizado comfracao de cura.
Tempos 50 100 500 1000 500030% censura
π(%) AIC BIC AIC BIC AIC BIC AIC BIC AIC BIC10 172.92 182.48 384.91 397.94 1915.50 1936.57 3796.33 3820.87 19380.40 19412.9930 205.45 215.01 384.28 397.31 2052.38 2073.45 4208.03 4232.56 20995.23 21027.8150 227.63 237.19 410.12 423.14 1904.93 1926 3876.36 3900.90 18062.57 18095.16
50% censuraπ(%) AIC BIC AIC BIC AIC BIC AIC BIC AIC BIC
10 160.13 169.69 314.67 327.69 1578.48 1599.55 3135.80 3160.34 14408.55 14441.1430 200.77 210.33 353.83 366.86 2113.40 2134.47 3280.83 3305.36 15568.88 15601.4650 195.37 204.93 365.18 378.20 1884.68 1905.76 3867.39 3891.93 18896.60 18929.19
Para amostras de tamanho 50 e 100 verifica-se que quanto mais a fracao de cura
aumenta, mais influenciam nas estimacoes de ambos os metodos. O restante segue a
mesma ideia, menos com a fracao de cura de 50%, que dimininui em relacao ao de
3.2 Distribuicao F generalizada com fracao de cura 20
30%. Logo, tanto o tamanho da amostra, como a fracao de cura parece influenciar nas
estimativas de AIC e BIC. Esse cuidado com o tamanho da amostra e porcentagem de
censura sera refletida na Secao seguinte.
Capıtulo 4
Aplicacoes
Neste capıtulo usamos o modelo de mistura padrao F generalizada para a escolha de
submodelos entre gama generalizada, log-logıstica, log-normal e Weibull, para ajustar
dois conjuntos de dados disponıveis no R. O ajuste dos modelos foi realizado com base
no logaritmo da funcao de verossimilhanca (3.13) considerando as funcoes populacionais
de sobrevivencia Sp e de densidade fp dadas respectivamente em (3.11) e (3.12). Foram
utilizados os metodos de selecao descritos na Secao 3.2.1 para cada conjunto de dados.
Apos a escolha do modelo mais adequado, as estimativas desse modelo sao apresentadas.
Todos os procedimentos foram realizados com base no no software R 3.02, com o auxılio
do pacote gfcure.
Na primeira aplicacao o tamanho da amostra e bastante pequeno. Como os resul-
tados sao assintoticos e com o cuidado ja dito na Secao 3.2.1, essa aplicacao sera um
exemplo de como e feito o procedimento de escolha de modelos.
4.1 Cancer de ovario
O estudo a seguir trata sobre os tempos de vida ou censura em dias de 26 pacientes
com cancer de ovario, disponıveis no R com o nome ovarian. O estudo foi realizado
por uma Cooperativa de Oncologia Ocidental e publicado por Edmunson et al. (1979).
O percentual de censura dos dados e de 56%.
Os tempos mınimos e maximos observados no estudo foram de 59 dias e 1227 dias.
Segue abaixo algumas estatısticas descritivas dos tempos em relacao ao “status” de
falha ou censura.
21
4.1 Cancer de ovario 22
Tabela 4.1: Estatısticas descritivas para os tempos de vida de pacientes com cancer de ovario, emdias.
Estatısticas descritivas Tempos Observados Tempos Censurados Tempos Gerais
Mınimo 353.0 59.0 59.01o Quartil 447.5 298.5 368.0Mediana 477.0 448.0 476.0Media 630.5 576.9 599.53o Quartil 786.0 812.5 794.8Maximo 1129.0 1227.0 1227.0
Na Figura abaixo, tem-se o histograma e boxplot dos tempos ate a falha ou censura
das pacientes com cancer de ovario. No boxplot verifica-se uma maior presenca de
dados censurados, indicando uma que pode haver uma parcela de pacientes curados ou
imunes ao evento de interesse.
Figura 4.1: Histograma e boxplot para os tempos de vida de pacientes com cancer de ovario, emdias.
Verificaremos alguns modelos na tentativa de saber qual que se melhor ajusta aos
dados. Inicialmente consideramos o ajuste de um modelo Weibull sem fracao de cura
e notamos (Figura 4.2) que este modelo parece nao se ajustar bem aos dados.
Como ha um indicativo em qua ha uma parcela dos pacientes curados ou imunes ao
evento de interesse, ajustamos os modelos com fracao de cura. Utilizamos o metodo de
comparar a curva estimada de Kaplan-Meier contra os submodelos da F generalizada.
Os resultados estao na Figura 4.3.
4.1 Cancer de ovario 23
Figura 4.2: Comparacao entre Kaplan-Meier e a funcao de sobrevivencia Weibull.
Figura 4.3: Comparacao entre modelos.
A Figura 4.3 mostra que os modelos de mistura gama generalizada e Weibull aderem
bem aos dados, observando a presenca de uma longa duracao em uma parcela dos
parcientes.
A partir da Tabela 4.2 podemos notar que os valores das estatısticas AIC e o BIC
apontam para o modelo de mistura padrao Weibull como melhor modelo neste caso, o
que esta de acordo com o resultado da analise grafica.
Tabela 4.2: Comparacao entre os modelos.Modelo No de Parametros AIC BIC
F Generalizada 5 63.71 76.73gama generalizada 4 60.57 70.99
log-normal 3 62.82 70.64log-logıstica 3 62.27 70.09
Weibull 3 60.57 68.39
Escolhido o melhor ajuste para os dados podemos estimar os parametros e os erros
padroes para este modelo. Os resultados encontram-se na Tabela 4.3.
4.2 Cancer de Colon 24
Tabela 4.3: Estimativas para o modelo Weibull.Parametro Estimativa Erro Padrao
α 6.04 0.15γ 0.47 0.26π 0.49 0.42
A fracao de cura estimada para este caso e de aproximadamente 49%.
4.2 Cancer de Colon
O estudo a seguir publicado em Moertel et al. (1990) considera dados sobre trata-
mento quimioterapico para cancer de colon. Foram observados os tempos de vida de
1858 pacientes onde registrou-se os tempos ate a ocorrencia do evento ou ate a censura
(em dias). O percentual de censura dos dados e de 50%.
Os tempos mınimos e maximos observados no estudo foram de 8 dias e 3329 dias.
Segue na Tabela 4.4 algumas estatısticas descritivas dos tempos em relacao ao “status”
de falha ou censura.
Tabela 4.4: Estatısticas descritivas para os tempos de vida de pacientes com cancer de colon, emdias.
Estatısticas descritivas Tempos Observados Tempos Censurados Tempos GeraisMınimo 8 19 81o Quartil 526 591 566Mediana 1814 1937 1855Media 1503 1582 15383o Quartil 2297 2356 2331Maximo 3309 3329 3329
Na Figura 4.4 tem-se o histograma e boxplot dos tempos ate a falha ou censura das
pacientes com cancer de colon. No boxplot verifica-se uma grande presenca de dados
atıpicos.
Na Figura 4.5 comparamos as curvas de sobrevivencia estimado dos modelos con-
tra a curva estimada de Kaplan-Meier. Inicialmente nao podemos descartar nenhum
modelo, pois todos estao bem ajustados nesse caso. Logo, e necessario outros criterios
de selecao de modelos.
4.2 Cancer de Colon 25
Figura 4.4: Histograma e boxplot para os tempos de vida de pacientes com cancer de colon, em dias.
Figura 4.5: Comparacao entre modelos.
Os valores das estatısticas AIC e BIC sao apresentados na Tabela 4.5, onde podemos
concluir que o modelo que melhor ajusta aos dados e o modelo de mistura log-logıstica,
apesar dos valores de quase todos os outros modelos estarem bem proximos.
Tabela 4.5: Comparacao entre os modelos.Modelo No de Parametros AIC BIC
F Generalizada 5 4881.01 4894.03gama generalizada 4 4882.75 4893.17
log-normal 3 4884.21 4892.03log-logıstica 3 4880.89 4888.70
Weibull 3 4912.86 4920.68
Na Figura 4.6, e observado que o risco do paciente vir a obito cresce ate o 500o dia
e depois decresce drasticamente ate se estabilizar.
4.3 Dados simulados no R 26
Figura 4.6: Funcao de risco ajustada pelo modelo log-logıstica para os dados de cancer de colon.
Na Tabela 4.6 temos as estimativas dos parametros e erros padroes para o modelo
log-logıstico.
Tabela 4.6: Estimativas para o modelo log-logıstico.Parametro Estimativa Erro Padrao
α 6.53 0.05γ 0.65 0.03π 0.41 0.06
A fracao de cura estimada para este caso e de aproximadamente 41%.
4.3 Dados simulados no R
Nesse caso, o conjunto de dados foi gerado a partir da F generalizada com os
parametros: µ = 3, σ = 5, s1 = 10 e s2 = 7. O tamanho da amostra e de 200 e a
porcentagem de censura nos dados ficaram em torno de 30%.
Os tempos minımos e maximos que foram gerados sao: 0.03 unidades de tempo
e 596.40 unidades de tempo. Na Tabela abaixo, tem-se as estatısticas descritivas do
tempos de vida simulados:
Tabela 4.7: Estatısticas descritivas para os tempos de vida simulados, em unidades de tempo.Estatısticas descritivas Tempos Observados Tempos Censurados Tempos GeraisMınimo 0.03 2.50 0.031o Quartil 3.86 74.95 10.42Mediana 15.54 233.40 43.61Media 48.89 254.40 137.303o Quartil 42.10 417.30 229.80Maximo 443.20 596.40 596.40
4.3 Dados simulados no R 27
Na Figura 4.7 tem-se o histograma e boxplot dos tempos ate a falha ou censura.
No boxplot verifica-se alguns dados atıpicos.
Figura 4.7: Histograma e boxplot para os tempos de vida simulados, em unidades de tempo.
Assim como na aplicacao anterior, a Figura 4.8 mostra que, inicialmente, nenhum
modelo pode ser descartado. Assim, novamente, se faz necessario verificar qual o melhor
modelo atraves do AIC e BIC.
Figura 4.8: Comparacao entre modelos.
Na Tabela 4.8 temos a conclusao de que o modelo mais adequado a essa situacao e
a log-logıstica. A observacao que pode ser feita e a mesma da secao anterior, de que os
valores estao proximos e um modelo mais simples, como a Weibull, pode ser adotado
sem grandes problemas.
4.3 Dados simulados no R 28
Tabela 4.8: Comparacao entre os modelos.Modelo No de Parametros AIC BIC
F Generalizada 5 714.84 731.33gama generalizada 4 713.41 726.61
log-normal 3 711.88 721.78log-logıstica 3 710.70 720.60
Weibull 3 715.65 725.55
Nesse caso, o modelo escolhido e o modelo de mistura Weibull. As estimativas dos
parametos e dos erros padroes sao dadas na Tabela 4.9.
Tabela 4.9: Estimativas para o modelo log-logıstico.Parametro Estimativa Erro Padrao
µ 0.57 0.04σ 0.02 0.004π 0.34 0.19
A fracao de cura para esse conjunto de dados e de 34%.
Capıtulo 5
Conclusoes
Neste trabalho estudamos a distribuicao F generalizada com fracao de cura (FGfc),
com base na abordagem estendida proposta por Rodrigues et al. (2009), que inclui
como caso particular o modelo de mistura padrao F Generalizado proposto em Peng
et al. (1998), sem a inclusao de covariaveis. Apresentamos a forma da verossimilhanca
marginal da FGfc no caso geral e nos dois casos particulares mais conhecidos que sao
os modelos de mistura padrao e o modelo de tempo de promocao. Discutimos alguns
procedimentos alternativos ao teste da razao de verossimilhancas, para a selecao de
submodelos da FGfc sem covariaveis. Consideramos aplicacoes com base em dados
disponibilizados no software R. Usamos para ajuste dos dados o pacote gfcure (Peng,
1999) e consequentemente assumimos nestas aplicacoes os modelos de mistura padrao
em que a funcao densidade e de sobrevivencia sao apresentados em (3.11) e (3.12).
Em trabalhos futuros consideramos que uma extensao importante seria o estudo e
implementacao computacional do modelo FGfc unificado com a inclusao de covariaveis
no parametro de posicao e no parametro associado a fracao de cura. Alem disso, per-
cebemos que apesar do pacote gfcure ter se mostrado preciso no ajuste dos submodelos
da FGfc nas aplicacoes, identificamos (em simulacoes nao apresentadas neste traba-
lho) que as estimativas dos parametros da FGfc podem apresentar muitas oscilacoes
em seus resultados com o uso deste pacote. Nao encontramos descricoes suficientes na
literatura para implementar adaptacoes no sentido de reduzir estas oscilacoes. Assim
um estudo de simulacao detalhado se faz necessario para avaliar a performance deste
pacote principalmente no ajuste da FGfc.
Uma outra extensao de interesse seria o estudo/implementacao de procedimentos
computacionais que possam ser utilizados com facilidade na estimacao e teste em mo-
delos FGfc em sua abordagem mais unificada, incluindo principalmente modelo de
tempo de promocao. Neste sentido Silva (2013) vem desenvolvendo uma adaptacao
29
30
do pacote flexsurv (flexible parametric survival models) proposto em Jackson (2013)
em linguagem R para o modelo gama generalizada com fracao de cura, que poderia
ser implementada para o FGfc. Finalmente seria util um estudo teorico sobre testes
de hipoteses neste modelo para testar submodelos em situacao de fronteira do espaco
parametrico.
Apendice A
Algumas definicoes e demonstracoes
A.1 Funcao gama e funcao poligama
A funcao gama (Mood, Graybill & Boes, 1974), denotada por Γ(a), e definida por
Γ(a) =
∫ ∞0
xa−1exdx, t > 0.
Se a = n for inteiro, temos
Γ(n+ 1) = n!.
A funcao poligama (Abramowitz & Stegun, 1964) de ordem m e definido como:
Ψ(m)(a) =∂m+1
∂am+1log Γ(a).
A.2 Funcoes beta e beta incompleta
A funcao beta (Mood, Graybill & Boes, 1974), denotada por B(a, b), e definida
como
B(a, b) =
∫ 1
0
xa−1(1− x)b−1dx
sendo a e b positivos.
Uma outra forma da funcao beta e apresentada por Abramowitz & Stegun (1964),
onde
B(a, b) =
∫ ∞0
xa−1
(1 + x)a+bdx.
31
A.3 Obtencao da funcao de verossimilhanca marginal 32
Podemos definir a funcao beta em relacao a funcao gama, como segue abaixo:
B(a, b) =Γ(a)Γ(b)
Γ(a+ b).
Definimos a funcao beta incompleta padronizada (Johnson, Kotz & Balakrishnan,
1992), denotada por Ix(a, b), como
Ix(a, b) =1
B(a, b)
∫ x
0
ua−1(1− u)b−1du
A.3 Obtencao da funcao de verossimilhanca margi-
nal
A demonstracao tambem pode ser vista em Carneiro (2012).
A funcao de verossimilhanca marginal e obtida fazendo-se o somatorio de L(φ;Dc)
em relacao a Ni. Ou seja,
L(φ;D) =∞∑ni=0
L(φ;Dc)
=∞∑ni=0
n∏i=1
[S(ti;ψ)ni ]1−δi [nif(ti;ψ)S(ti;ψ)ni−1]δipθ(ni)
Como o somatorio depende de i, entao
L(φ;D) =n∏i=1
∞∑ni=0
[S(ti;ψ)ni ]1−δi [nif(ti;ψ)S(ti;ψ)ni−1]δipθ(ni).
Podemos separar a funcao anterior em duas, δi = 0 e δi = 1.
Se δi = 0:
L(φ;D) =n∏i=1
∞∑ni=0
S(ti;ψ)nipθ(ni).
De (2.7), temos que
L(φ;D) =n∏i=1
Sp(ti;φ).
Se δi = 1:
L(φ;D) =n∏i=1
∞∑ni=0
nif(ti;ψ)S(ti;ψ)ni−1pθ(ni).
A.4 Demonstracao para a equacao 3.2 33
De (2.8), temos que
L(φ;D) =n∏i=1
fp(ti;φ).
Logo, a funcao marginal e dada por:
L(φ;D) =n∏i=1
[Sp(ti;φ)ni ]1−δi [fp(ti;φ)]δi .
A.4 Demonstracao para a equacao 3.2
Seja T0 uma v.a. seguindo distribuicao F com 2s1 e 2s2 graus de liberdade, ambos
positivos, com densidade dada em (3.1). Fazendo T = aT b0 temos que a v. a. T tem
distribuicao F generalizada com os parametros a, b, s1 e s2, sendo b > 0. :
FT (t) = P (T < t) = P (aT b0 < t) = P
(T0 <
(t
a
)1/b)= FT0
((t
a
)1/b)Derivando a funcao fica:
fT (t) =
(t
a
) 1b−1
1
abfT0
((t
a
) 1b)
fT (t) =
(t
a
) 1b−1
1
ab
(s1
s2
)s1[( ta
) 1b]s1−1
B(s1, s2)
[1 +
(s1
s2
)(t
a
) 1b](s1+s2)
fT (t) =
(t
a
) 1b−1
1
ab
(s1
s2
)s1( ta
) s1b− 1b
B(s1, s2)
[1 +
(s1
s2
)(t
a
) 1b](s1+s2)
fT (t) =
(s1
s2
)s1(ab)−1
(t
a
) s1b−1
B(s1, s2)
[1 +
(s1
s2
)(t
a
) 1b](s1+s2)
A.5 Demonstracao para a equacao 3.3 34
A.5 Demonstracao para a equacao 3.3
Seja W =log T − µ
σ, onde W e o logaritmo da v. a. T0. A funcao densidade de
probabilidade de W e dada por:
FW (w) = P (W < w) = P
(log T − µ
σ< w
)=
= P (log T < µ+ σw) = P (T < eµ+σw) = FT (µ+ σw)
Derivando a funcao em relacao a W, temos:
fW (w) = σeµ+σwfT (eµ+σw)
fW (w) = σeµ+σw
(s1
s2
)s1(eµσ)−1
(eµ+σw
eµ
) s1σ−1
B(s1, s2)
[1 +
(s1
s2
)(eµ+σw
eµ
) 1σ
]s1+s2
fW (w) =σ
σ
eµ+σw−µ(s1
s2
)s1(eµ+σw−µ)
s1σ−1
B(s1, s2)
[1 +
(s1
s2
)(eµ+σw−µ)
1σ
]s1+s2
fW (w) =
eσw(s1
s2
)s1eσws1σ−σw
B(s1, s2)
[1 +
(s1
s2
)eσwσ
]s1+s2
fW (w) =
(s1
s2
)s1ews1
B(s1, s2)
[1 +
(s1
s2
)ew](s1+s2)
A.6 Demonstracao para a equacao 3.4
A funcao de sobrevivencia da variavel W ficara dessa forma:
SW (w) =
∫ ∞w
( s1s2
)s1evs1
B(s1, s2)[1 + ( s1s2
)ev](s1+s2)dv
A.6 Demonstracao para a equacao 3.4 35
SW (w) =
∫ ∞w
[( s1s2
)ev
1 + ( s1s2
)ev
]s1[ 1
1 + ( s1s2
)ev
]s2B(s1, s2)−1dv
Fazendo u =1
1 +(s1s2
)ev
=s2
s2 + s1eve du = −
1
1 +(s1s2
)ev
(s1s2
)ev
1 +(s1s2
)ev
dv,
temos que:
SW (w) = −∫ 0
s2(s2+s1ew)−1
us2−1(1− u)s1−1B(s1, s2)−1du
SW (w) =
∫ s2(s2+s1ew)−1
0
us2−1(1− u)s1−1B(s1, s2)−1du
SW (w) = Ik(s2, s1)
sendo k=s2(s2 + s1ew)−1.
Apendice B
Comandos no R
Nessa secao mostramos a rotina utilizada para a obtencao das estimativas tanto
da simulacao da Secao 3, quanto da Secao 4. Para isso, e preciso que baixe o pacote
gfcure e execute no software R 32-bits. Para mais informacoes de onde esta disponıvel
o pacote, consulte Peng (1999).
require(flexsurv) # Chamar o pacote flexsurv, ja com o survival incluso.
attach("SUA_BIBLIOTECA_DO_R \\ gfcure\\.RData")load.gfcure("SUA_BIBLIOTECA_DO_R \\ gfcure")
#### Rotina para a simulac~ao na Sec~ao 3.2.1
### Func~ao a partir da gerac~ao de numeros aleatorios da F
## a = 20 (mu = 3), b = 5, s1 = 10 e s2 = 7
rm(list = ls())
D = function(n, a, b, s1, s2, p, tau){
N <- rbinom(n, 1, 1-p)
C <- runif(n, 0, tau)
T <- vector(); y <- vector(); d <- vector(); cv <- vector()
T[N==1] <- a*rf(sum(N),2*s1,2*s2) bT[N==0] <- C[N==0]
y <- apply(cbind(T,C), 1, min)
d <- ifelse(T < C, 1, 0)
cv <- ifelse(y = C, 1, 0)
return(list(y = y, d = d, pc1=sum(cv)/sum(1-d),pc2=mean(1-d)))
}
36
37
#### n = 50
### Censura = 30
## % de cura = 10
d <- D(50, 20, 5, 10, 7, 0.1, 250);d$pc1;d$pc2 # Verificar a censura.
n=50 # Escolha do tamanho da amostra
mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",
sait = 0, temp = 10, ntemp = 100);mod
(AIC=-2*mod$log+2*5)
(BIC=-2*mod$log+5*log(n))
## % de cura = 30
d <- D(50, 20, 5, 10, 7, 0.3, 450);d$pc1;d$pc2
n=50
mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",
sait = 0, temp = 10, ntemp = 100);mod
(AIC=-2*mod$log+2*5)
(BIC=-2*mod$log+5*log(n))
## % de cura = 50
d <- D(50, 20, 5, 10, 7, 0.5, 500000);d$pc1;d$pc2
n=50
mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",
sait = 0, temp = 0, ntemp = 200);mod
(AIC=-2*mod$log+2*5)
(BIC=-2*mod$log+5*log(n))
### Censura = 50
## % de cura = 10
d <- D(50, 20, 5, 10, 7, 0.1, 100);d$pc1;d$pc2
n=50
mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",
sait = 0, temp = 0, ntemp = 0);mod
38
(AIC=-2*mod$log+2*5)
(BIC=-2*mod$log+5*log(n))
## % de cura = 30
d <- D(50, 20, 5, 10, 7, 0.3, 500);d$pc1;d$pc2
n=50
mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",
sait = 0, temp = 0, ntemp = 0);mod
(AIC=-2*mod$log+2*5)
(BIC=-2*mod$log+5*log(n))
## % de cura = 50
d <- D(50, 20, 5, 10, 7, 0.5, 500000);d$pc1;d$pc2
n=50
mod=gfcure(Surv(d$y, d$d)∼1, cureform=∼1, dist="gf",
sait = 0, temp = 0, ntemp = 0);mod
(AIC=-2*mod$log+2*5)
(BIC=-2*mod$log+5*log(n))
#### Rotina para a Sec~ao 4.1
### Dados sobre cancer de ovario
str(ovarian)
t=seq(0:1200)
### Ajuste usando o Kaplan-Meier
ekm=survfit(Surv(futime, fustat)∼1, conf.type="none", data=ovarian)
plot(ekm, main="Estimador de Kaplan-Meier",ylab="S(t)", xlab="Tempos
(em dias)")
##### Modelos a serem considerados no estudo
#### Gama Generalizada
### Ajuste usando o gfcure
mod1=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian, dist
="egg",sait = 0, temp = 0, ntemp = 0)
39
mod1
s=mod1$coef[1]
sigma=exp(mod1$coef[2])
mu=mod1$coef[3]
y1=(1-pegg(t, s, sigma, mu))*(1-mod1$cure)+mod1$cure
#### Weibull
### Ajuste usando o gfcure
mod2=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian)
mod2
a=1/exp(mod2$coef[1]);a
b=exp(mod2$coef[2]);b
y2=(exp(-(t/b) a)*(1-mod2$cure))+mod2$cure#### log-logıstica
### Ajuste usando o gfcure
mod3=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian,
dist="loglogistic")
mod3
a=1/exp(mod3$coef[1]);a
b=exp(mod3$coef[2]);b
y3=(1/(1+(t/b) a))*(1-mod3$cure)+mod3$cure#### F Generalizada
### Ajuste usando o gfcure
mod4=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian,
dist="gf", sait = 0, temp = 0, ntemp = 0)
mod4
#### log-normal
### Ajuste usando o gfcure
mod5=gfcure(Surv(futime, fustat)∼1, cureform=∼1, data=ovarian,
dist="lognormal")
mod5
mu=mod5$coef[2]
sigma=exp(mod5$coef[1])
40
w = (log(t)-mu)/sigma
y5=pnorm(w, 0, 1, lower.tail=F)*(1-mod5$cure)+mod5$cure
### Grafico da figura 4.1
plot(ekm, main="Comparac~ao curvas de sobrevivencia", ylab="S(t)",
xlab="Tempos (em dias)")
lines(t,y1, col=2, lty=1)
lines(t,y2, col=3, lty=2)
lines(t,y3, col=4, lty=3)
lines(t,y5, col=6, lty=4)
legend(700,0.9,col=c(1,2,3,4,6),lty=c(1,1,2,3,4), c("Kaplan-Meier",
"gama generalizada","Weibull","log-logıstica","lognormal"),lwd=1,
bty="n")
#### Criterios de Informac~ao da tabela 4.1
### AIC
(AIC1=-2*mod1$log+2*4) # Gama generalizada
(AIC2=-2*mod2$log+2*3) # Weibull
(AIC3=-2*mod3$log+2*3) # log-logıstica
(AIC4=-2*mod4$log+2*5) # F generalizada
(AIC5=-2*mod5$log+2*3) # log-normal
### BIC
n=100
(BIC1=-2*mod1$log+4*log(n)) # Gama generalizada
(BIC2=-2*mod2$log+3*log(n)) # Weibull
(BIC3=-2*mod3$log+3*log(n)) # log-logıstica
(BIC4=-2*mod4$log+5*log(n)) # F generalizada
(BIC5=-2*mod5$log+3*log(n)) # log-normal
####### Rotina para a sec~ao 4.2
##### Inserir os dados
str(colon)
t=seq(0:3500)
### Ajuste usando o Kaplan-Meier
41
ekm=survfit(Surv(time, status)∼1, conf.type="none", data=colon)
#### Gama generalizada
### Ajuste usando o gfcure
mod1=gfcure(Surv(time, status)∼1, cureform=∼1, dist="egg", data=colon,
sait = 0, temp = 10, ntemp = 10)
mod1
s=mod1$coef[1]
sigma=exp(mod1$coef[2])
mu=mod1$coef[3]
y1=(1-pegg(t, s, sigma, mu))*(1-mod1$cure)+mod1$cure
##### Usando a distribuic~ao Weibull
### Ajuste usando o gfcure
mod2=gfcure(Surv(time, status)∼1, cureform=∼1, data=colon)
mod2
a=1/exp(mod2$coef[1]);a
b=exp(mod2$coef[2]);b
y2=(exp(-(t/b) a)*(1-mod2$cure))+mod2$cure#### log-logıstica
### Ajuste usando o gfcure
mod3=gfcure(Surv(time, status)∼1, cureform=∼1,dist="loglogistic", data=colon)
mod3
a=1/exp(mod3$coef[1]);a
b=exp(mod3$coef[2]);b
y3=(1/(1+(t/b) a))*(1-mod3$cure)+mod3$cure#### F Generalizada
### Ajuste usando o gfcure
mod4=gfcure(Surv(time, status)∼1, cureform=∼1, dist="gf", data=colon,
sait = 10, temp = 10, ntemp = 10)
mod4
#### log-normal
42
### Ajuste usando o gfcure
mod5=gfcure(Surv(time, status)∼1, cureform=∼1, dist="lognormal", data
=colon)
mod5
mu=mod5$coef[2]
sigma=exp(mod5$coef[1])
w = (log(t)-mu)/sigma
y5=pnorm(w, 0, 1, lower.tail=F)*(1-mod5$cure)+mod5$cure
### Grafico para a figura 4.3
plot(ekm, main="Comparac~ao curvas de sobrevivencia",
ylab="S(t)", xlab="Tempos (em dias)")
lines(t,y1, col=2, lty=1)
lines(t,y2, col=3, lty=2)
lines(t,y3, col=4, lty=3)
lines(t,y5, col=6, lty=4)
legend(1500,0.9,col=c(1,2,3,4,6),lty=c(1,1,2,3,4), c("Kaplan-Meier",
"gama generalizada","Weibull","log-logıstica","lognormal"),lwd=1,bty="n")
#### Criterios de Informac~ao da tabela 4.3
### AIC
(AIC1=-2*mod1$log+2*4) # Gama generalizada
(AIC2=-2*mod2$log+2*3) # Weibull
(AIC3=-2*mod3$log+2*3) # log-logıstica
(AIC4=-2*mod4$log+2*5) # F generalizada
(AIC5=-2*mod5$log+2*3) # log-normal
### BIC
n=100
(BIC1=-2*mod1$log+4*log(n)) # Gama generalizada
(BIC2=-2*mod2$log+3*log(n)) # Weibull
(BIC3=-2*mod3$log+3*log(n)) # log-logıstica
(BIC4=-2*mod4$log+5*log(n)) # F generalizada
(BIC5=-2*mod5$log+3*log(n)) # log-normal
Referencias
Abramowitz, M. and Stegun, I.A. (1964). Handbook of Mathematical Functions with
Formulas, Graphs, and Mathematical Tables. Dover Publications, New York.
Akaike, H. (1974). A New Look at the Statistical Model Identification. IEEE Tran-
sactions on Automatic Control, Vol. 19, No. 6, pp. 716-723.
Berkson, J. and Gage, R.P. (1952). The likelihood ratio, Wald, and Lagrange mul-
tiplier tests: an expository note. Journal of American Statistical Association,
Vol. 47, No. 259, pp. 501-515.
Brown, B.W., Levy, L.B., Lovato, J., Russell, K. and Spears, F.M. (1992). Algorithm
762: LLDRLF, Log-likelihood and Some Derivatives for log-F Models. ACM
Transactions on Mathematical Software, Vol. 22, No. 3, pp. 372-382.
Carneiro, H.P. de A. (2012). Testes de Hipoteses em Modelos de Sobrevivencia com
Fracao de Cura. Dissertacao de Mestrado - PPGMAE - UFRN.
Cox, C (2008). A generalized F distribution: An umbrella for parametric survival
analysis. Statistics in medicine, Vol. 27, pp. 4301-4312.
Colon, A.S.C., Taylor, J.M.G., Sargent, D.J. and Yothers, G. (2011). Using cure
models and multiple imputation to utilize recurrence as an auxiliary variable for
overall survival. Clinical trials, Vol. 8, pp. 581-590.
Colosimo, E.A. e Giolo, S.R. (2006). Analise de Sobrevivencia Aplicada. Edgard
Blucher, Sao Paulo, SP.
Edmunson, J.H., Fleming, T.R., Decker, D.G., Malkasian, G.D., Jefferies, J.A.,
Webb, M.J., and Kvols, L.K. (1979). Different Chemotherapeutic Sensitivities
and Host Factors Affecting Prognosis in Advanced Ovarian Carcinoma vs. Mi-
nimal Residual Disease. Cancer Treatment Reports, Vol. 63, pp. 241-247.
Fonseca, R.S. (2011). Modelos de Sobrevivencia com Fracao de Cura e Omissao nas
Variaveis. Dissertacao de Mestrado - PPGMAE - UFRN.
43
44
Hogg, S.A. and Ciampi, A. (1985). GFREG: A computer program for maximum
likelihood regression using the generalized F distribution. Computer Methods
and Programs in Biomedicine, Vol. 20, pp. 201-215.
Hubben, G.A.A., Bishai, D., Pechlivanoglou, P., Cattelan, A.M., Grisetti, R., Fac-
chin, C., Compostella, F.A., Bos, J.M., Postma, M.J. and Tramarin, A. (2008).
The societal burden of HIV/AIDS in Northern Italy: An analysis of costs and
quality of life. AIDS Care, Vol. 20, No. 4, pp. 449-455.
Ibrahim, J.G., Chen, M.H. and Sinha, B. (1992). Bayesian Survival Analysis. Sprin-
ger, New York.
Jackson, C. (2013). Flexible parametric survival models. URL: http://cran.r-
project.org/web/packages/flexsurv/index.html. Acesso: 09 de julho de 2014.
Johnson, N.L., Kotz, S. and Balakrishnan, N. (1992). Continuous Univariate Dis-
tributions. Wiley, Vol.2, New York.
Kalbfleisch, J.D. and Prentice, R.L. (2002). The Statistical Analysis of Failure Time
Data. Wiley, New York.
Kaplam, E.L. and Meier, P. (1958). Nonparametric Estimation from Incomplete
Observation. Journal of the American Statistical Association, Vol.58, No. 282,
pp. 457-481.
Lawless, J.F. (2003). Statistical Models and Methods for Lifetime Data. Wiley, New
York.
Le, Q.H., Thomas, X., Ecochard, R., Iwaz, J., Lheeritier, V., Michallet, M., Fiere,
D. (2007). Proportion of long-term event-free survivors and lifetime of adult
patients not cured after a standard acute lymphoblastic leukemia therapeutic
program. American Cancer Society, Vol. 109, No. 10, pp. 2058-2067.
Maller, R.A., Zhou, X. (1974). Survival analysis with long-term survivors. Wiley,
New York.
Martinez, E.Z., Lourencon, A.F., Mazucheli, J. e Ferreira, O. (2007). Modelos de
Sobrevivencia de Longa Duracao Aplicados ao Estudo do Comportamento de
Retorno do Doador de Sangue Voluntario. Revista de Matematica e Estatıstica.
Vol 25, No. 1, pp. 137-154.
Moetel, C.G., Fleming, T.R., Macdonald, J.S., Hallen, D.G., Laurie, J.A., Good-
man, P.J., Ungerleider, J.S., Emerson, W.A., Tormey, D.C., Glick, J.H., Veeder,
M.H. and Mailliard, J.A. (1990). Levamisole and Flurouracil for Adjuvant The-
45
rapy of Resected Colon Carcinoma. The New England Journal of Medicine,
Vol.8, pp. 322-352.
Mood, A.M., Graybill, F.A., Boes, D.C. (1974). Introduction To The Theory of
Statistics. McGraw - Hill International Editions, 3th Edition.
Peng, Y. (1999) GFCURE - An S-PLUS Package for Parametric
Analysis of Survival Data with Possible Cured Fraction. URL:
http://www.math.mun.ca/∼ypeng/research/gfcure/. Acesso: 09 de junho
de 2014.
Peng, Y. and Carrier, K.C. (2002). An Empirical Comparison of Parametric and
Semiparametric Cure Models. Biometrical Journal, Vol. 44, No. 8, pp. 1002-1014.
Peng, Y. and Dear, K.B.G. and Denham, J.W. and others (1998). A generalized F
mixture model for cure rate estimation. Statistics in medicine, Vol. 17, No. 8,
pp. 813-830.
Prentice, R.L. (1975). Discrimination Among Some Parametric Models. Statistics
in medicine, Vol. 62, No. 3, pp. 607-614.
R Development Core Team (2013). R: A Language and Environment of Statistical
Computing. R Foundation for Statistical Computing, Vienna, Austria. URL:
http://www.r-project.org/.
Rodrigues, J., Cancho, V.G., de Castro, M. and Louzada-Neto, F. (2009). On
the unification of long-term survival models. Statistics and Probability Letters
Vol. 79, pp. 753-759.
Schwartz, G. (1978). Estimating the Dimension of a Model.The Annals of Statistics
Vol. 6, No. 2, pp. 461-464.
Silva, R. P. da (2013). Modelo Gama Generalizado com Longa Duracao: Teoria e
Pratica. Monografia de Graduacao (Formacao em Estatıstica) - Curso de Esta-
tıstica, Departamento de Estatıstica, Universidade Federal do Rio Grande do
Norte, Natal-RN. 50 f.
Yakovlev, A.Y., Asselain, B., Bardou, V.J., Fourquet, A., Hoang, T., Rochefediere,
A. and Tsodikov, A.D. (1993). A simple stochastic model of tumor recurrence
and its application to data on premenopausal breast cancer. Biometric et analyse
de donnes spatio-temporelles, Vol. 12, pp. 66-82.