ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM · PDF fileanÁlise de itens e da...
Transcript of ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM · PDF fileanÁlise de itens e da...
Antonio Alves de Oliveira Filho
Mariana Alves da Fonseca
ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM TESTE DE
AVALIAÇÃO DE CONHECIMENTOS - UM ESTUDO DE CASO
Curitiba, Junho de 2006
Projeto apresentado na disciplina de Laboratório de Estatística II do Curso de Estatística do Departamento de Estatística do Setor de Ciências Exatas da Universidade Federal do Paraná. Orientador: Prof. Dr. Anselmo Chaves Neto
2
SUMÁRIO
1 INTRODUÇÃO............................................................................................ 4
1.1 O Problema...................................................................................................... 4
1.2 Objetivo ........................................................................................................... 5
1.3 Justificativa...................................................................................................... 5
1.4 Estrutura do Trabalho .................................................................................... 5
2 REVISÃO DE LITERATURA ...................................................................... 6
2.1 Teoria Clássica ................................................................................................ 6 2.1.1 Confiabilidade de um teste......................................................................... 8 2.1.2 Coeficiente de Correlação Linear de Pearson.......................................... 10 2.1.3 Coeficiente de Correlação Bisserial de Ponto.......................................... 11 2.1.4 Coeficiente de Correlação Bisserial......................................................... 11
2.2 Teoria de Resposta ao Item........................................................................... 13 2.2.1 Modelos e Métodos de Estimação da TRI................................................. 14 2.2.2 Modelo logístico unidimensional de um parâmetro.................................. 15 2.2.3 Modelo logístico unidimensional de dois parâmetros.............................. 16 2.2.4 Modelo logístico unidimensional de três parâmetros ............................... 16 2.2.5 Métodos de Estimação na Teoria da Resposta ao Item............................. 17 2.2.5.1 Estimação dos parâmetros dos itens para habilidades conhecidas........... 18 2.2.5.2 Estimação dos parâmetros dos itens para habilidades desconhecidas...... 20 2.2.5.3 Estimação das habilidades....................................................................... 21
3 MATERIAIS E MÉTODOS........................................................................ 24
3.1 Programas computacionais .......................................................................... 25
4 RESULTADOS E DISCUSSÃO................................................................ 28
4.1 Antes da instrução da disciplina. .................................................................. 28 4.1.1 O item mais difícil ................................................................................... 28 4.1.2 O item mais fácil...................................................................................... 29 4.1.3 O item mais discriminante. ..................................................................... 30 4.1.4 O item menos discriminante..................................................................... 31 4.1.5 Estimativas dos parâmetros ..................................................................... 32
4.2 Após a Instrução da Disciplina ..................................................................... 35 4.2.1 O item mais difícil ................................................................................... 35 4.2.2 O item mais fácil...................................................................................... 37 4.2.3 O item mais discriminante. ...................................................................... 38 4.2.4 O item menos discriminante..................................................................... 39 4.2.5 Estimativas dos parâmetros ..................................................................... 40
3
4.3 Comparativo Antes x Depois......................................................................... 43 4.3.1 Habilidades ............................................................................................. 43 4.3.2 Grau de dificuldade ................................................................................. 45
5 CONCLUSÃO ........................................................................................... 48
6 CRONOGRAMA ....................................................................................... 49
REFERÊNCIAS BIBLIOGRÁFICAS................................................................ 50
ANEXOS .......................................................................................................... 52
Anexo I – Instrumento de Avaliação........................................................................ 53
Anexo II – Curvas Características de todos os Itens ............................................... 60
Anexo III - Quadro de Probabilidades..................................................................... 61
Anexo IV - Tabela das Habilidades.......................................................................... 62
4
1 INTRODUÇÃO
1.1 O Problema
Na educação o papel da avaliação é de fundamental importância, pois depende
dela a progressão serial dos educandos e toda a sua vivência acadêmica. O
instrumento de avaliação (teste, prova, etc) deve ser bem construído e os itens que o
compõem devem ter as propriedades que o classifique como confiável.
Hoje em dia, no Brasil, a educação tem alguns problemas que são originários,
principalmente, da desigualdade na distribuição de renda. Vários estudos apontam a
evasão e a repetência como os principais problemas no Sistema Educacional
Brasileiro. A evasão em alguns cursos do ensino superior é preocupante. Na área de
Ciências Exatas a evasão atinge níveis superiores a 50%.
No que diz respeito à educação propriamente dita, em sala de aula, para
otimizar o aprendizado do aluno é imprescindível que o educador realize
periodicamente avaliação de desempenho dos educandos, assim como avaliação de
seu próprio desempenho.
A adoção desse tipo de procedimento com determinada periodicidade viabiliza
o constante aprimoramento no processo de orientação por parte do educador e
aprendizagem por parte do aluno.
Atrelado à proposta de constante avaliação do planejamento adotado pelo
educador - entenda-se por educador, além do professor de determinada
disciplina/curso também a instituição de ensino onde o aluno está acompanhando este
curso - se faz necessário o uso de ferramentas que permitam a avaliação fiel do que
está sendo desenvolvido atualmente.
Assim, é indispensável à criação e manutenção de um sistema de mensuração
de aprendizagem capaz de fornecer informações consistentes, periódicas e
comparáveis. Logo, as metodologias científicas que fundamentam tal sistema devem
apresentar consistência e confiabilidade nos resultados apresentados.
5
1.2 Objetivo
O objetivo desse trabalho é abordar as teorias da avaliação educacional, tanto
a Teoria Clássica, quanto a Teoria da Resposta ao Item (TRI) nos seus vários
aspectos. E, aplicá-las na análise de dados reais do ensino superior. O instrumento de
avaliação usado para obtenção dos dados foi aplicado aos estudantes da disciplina
CE204-Cálculo de Probabilidades I do Curso de Estatística da Universidade Federal
do Paraná, antes da instrução dessa disciplina e depois da instrução da disciplina,
quatro meses depois. A confiabilidade do instrumento também foi avaliada. O foco
principal do trabalho está na avaliação das habilidades dos alunos em cada item.
1.3 Justificativa
Este trabalho se justifica por várias razões. Em primeiro lugar deve-se
considerar que o estudo das teorias de avaliação (clássica e da resposta ao item -
TRI), pelo conteúdo estatístico que as compõem necessitam ser do conhecimento dos
estatísticos; por outro lado não existe um conhecimento completo sem uma aplicação
real que motive os resultados teóricos e finalmente, a análise do instrumento de
avaliação em uma disciplina fundamental do Bacharelado em Estatística fornece
informações relevantes, tanto para os professores, quanto para a Coordenação do
Curso.
A avaliação tem que se adequar a uma situação de real preocupação com o
aluno e oferecer elementos para que alunos e professores possam esclarecer os seus
reais propósitos, o que pretendem efetivamente conseguir e principalmente que a
avaliação se torne uma motivação para a aprendizagem e o direcionamento correto
dos educandos e também dos professores, por isso acreditamos que este trabalho
possa contribuir de maneira positiva na reflexão da realidade acadêmica.
1.4 Estrutura do Trabalho
Neste trabalho consta, além dessa introdução, uma revisão da literatura sobre
o tema no segundo capítulo, material e métodos no 3° capítulo, resultados e discussão
no 4°capítulo, conclusão no 5°, cronograma, referências bibliográficas e anexos.
6
2 REVISÃO DE LITERATURA
A revisão de literatura aborda livros e artigos que constam da bibliografia, a
seguir, e que tratam dos seguintes assuntos:
• Teoria Clássica da Avaliação - Medidas da confiabilidade de um teste -
Coeficientes de correlação serial, bisserial e de Pearson.
• Teoria da Resposta ao Item.
2.1 Teoria Clássica
É bem conhecido que avaliação educacional, assim como suas medidas,
começaram a tomar corpo com os trabalhos de Ralph W. Tyler, principalmente aquele
publicado no início da década de 40. A partir do trabalho de Tyler, surgiram vários
modelos de avaliação tais como o de Hammond, o de Metfessel e Michael em 1967, e
também os programas de avaliação da década de 1970, como o National Assesment
of Educational Progress entre outros. Heraldo M. Vianna descreve muito bem as idéias
que dominam estes trabalhos no seu livro de 1988. O trabalho de Cronbach de 1963,
propõe várias direções para trabalhos futuros em avaliação educacional. Cronbach
nesse trabalho estuda o relacionamento entre a avaliação e a tomada de decisão. E,
ainda, verifica que uma boa decisão só ocorre quando o problema que provoca a
decisão está bem avaliado; descreve as várias faces da avaliação educacional e
aborda, também, a questão da performance do educando como indicador da qualidade
do curso.
Segundo Ralph W. Tyler o objetivo principal da avaliação é verificar de tempos
em tempos o desempenho da escola na educação dos alunos. Conseqüentemente
este processo favorece uma reflexão, por parte dos educadores, e correção do rumo
dos objetivos educacionais. Como os objetivos educacionais da escola pretendem
alcançar a formação plena do aluno, é de fundamental importância se ter informações
que possam conduzir a uma orientação eficiente durante o processo educacional. E,
essas informações só podem ser fornecidas por avaliações eficientes. Ainda, segundo
Tyler em Viana, o processo de avaliação sistemática favorece a identificação e
correção de vários problemas educacionais que podem estar presentes na
comunidade escolar.
7
Segundo Cronbach, em Viana, a avaliação é uma atividade que tem várias
formas e conseqüentemente provoca vários tipos de decisões. Ainda, Cronbach em
Viana afirma que avaliação conduz a:
• Verificar se a prática didática pedagógica, bem como o material de
instrução, são eficazes;
• Identificar as dificuldades dos educandos e conseqüentemente a um
planejamento educacional adequado;
• Verificar a eficiência do processo educacional como um todo, ou seja,
métodos e professores.
Ainda, segundo Cronbach em Viana, a avaliação visa a melhoria do ensino e
deve ter como objetivo principal verificar os resultados do ensino no comportamento
do educando. De modo que a avaliação, quando bem analisada, aponta as
componentes do ensino que necessitam de um re-trabalho. E, a comparação de
cursos deve ser feita com muito cuidado, pois existem diferenças não só entre os
educandos dentro dos grupos em comparação, como também, e principalmente, entre
os grupos.
Hoje em dia pode-se traçar um paralelo entre o processo de ensino e avaliação
com o chamado ciclo de Shewhart também conhecido como ciclo PDCA, das palavras
em inglês que significam planejar, fazer, avaliar e realimentar. O ciclo PDCA é muito
utilizado na economia visando o aperfeiçoamento dos processos de produção.
Seguindo este ciclo, o que se deve fazer é planejar uma ação, aplicá-la, verificar os
resultados e realimentar o planejamento e continuar sucessivamente e continuamente,
de modo a que se alcance um aperfeiçoamento continuo do processo de ensino na
sua forma plena. A figura 01 representa bem este ciclo:
Figura 01 – Ciclo PDCA
8
Finalmente, de acordo com Viana, pode-se concluir que Ralph W. Tyler trata da
avaliação educacional tendo em vista os objetivos que devem ser fixados levando-se
em conta o estudante, a sociedade e o conteúdo. Já Cronbach considera que a
avaliação educacional exige evidências dos resultados, deve determinar as mudanças
que ocorreram no educando por força do ensino, e, ainda, que a análise dos itens de
forma isolada é mais útil que simplesmente um escore total.
O processo educativo é dinâmico e composto por etapas. Então, a avaliação
educacional tem que corresponder a cada fase e conseqüentemente tem as seguintes
modalidades:
• Diagnóstica, que é feita quando da entrada do educando no sistema e
conseqüentemente suas limitações devem ser identificadas para subsidiar o
planejamento do ensino;
• Formativa, que é feita durante todo o processo de ensino e aprendizagem de modo
a que os educadores possam controlar todo o processo e fazer as correções que
se façam necessárias;
• Somativa, que é feita quando da saída do ciclo didático, de cada unidade ou de
determinada disciplina, de modo que se possa controlar a qualidade dos
resultados finais.
Resumindo, a avaliação conceitualmente trata-se de uma descrição
quantitativa de processos ou educandos quanto a características próprias em conjunto
com juízo de valor e com objetivos bem definidos.
Quanto ao desenvolvimento, trata-se de um processo sistemático e contínuo,
que envolve fins, meios, processos e os resultados, começando com o planejamento e
terminando com o julgamento da eficiência do processo quanto aos resultados obtidos.
Do ponto de vista de modalidades, pode-se dizer que ela é diagnóstica, formativa e
somativa.
2.1.1 Confiabilidade de um teste
A confiabilidade ou fidedignidade de um teste trata da estabilidade dos
resultados e é desejável que eles sejam o mais consistente possível. Então, a
confiabilidade (fidedignidade) de um teste pode ser estimada pelo coeficiente de
correlação entre dois conjuntos de escores obtidos, independentemente, para um
mesmo grupo.
O conceito de confiabilidade está associado com a idéia estatística de
consistência. Mas, confiabilidade não significa um desempenho ideal sem falhas. Na
9
verdade existe uma gradação na confiabilidade, não sendo necessariamente tudo ou
nada.
Um teste é confiável dependendo de três fatores: do teste por si mesmo, das
condições de aplicação e do grupo de examinandos. Assim, a interação entre esses
três fatores determina a confiabilidade do teste.
A confiabilidade é usada para descrever e avaliar os escores que examinandos
obtêm em testes educacionais e é dada pela seguinte expressão:
fi = 2y
2v
i
i
s
s=
2y
22y
i
i
s
ss ε− (2.1)
Este coeficiente corresponde à correlação entre os escores dos testes. A
estimativa indireta dessa quantidade é dada pelo coeficiente de correlação amostral
entre os resultados obtidos nas duas aplicações. Mas, deve-se alertar que a estatística
chamada coeficiente de correlação, embora varie de –1 a +1, deve indicar uma
relação direta, ou seja, sua variação fica definida entre os valores de 0 a 1.
Considerando os resultados de duas aplicações, o estimador é:
fi = ρ (X1,X2) =
∑ ∑
∑
= =
=
−−
−−
n
1i
n
1i
22i2
21i1
n
1i
2i21i1
)xx()xx(
)xx)(xx( (2.2)
Um teste é composto por uma amostra de conteúdos abordados nos itens. No
caso de um tamanho da amostra for muito pequeno, a chance de um examinando não
ter estudado alguns daqueles poucos conteúdos será maior e isto influenciará o seu
escore. Neste contexto, podemos utilizar a fórmula de Spearman-Brown, para medir a
confiabilidade de um teste, porém neste estudo caso não deve ser aplicada,por se
tratar de uma amostra de tamanho razoável.
Uma outra maneira de se medir a confiabilidade de um teste é aplicar a fórmula
de Kuder-Richardson, indicado para este estudo, por se tratar de dados discretos e
todos os itens serem dicotômicos.
A expressão desse estimador da confiabilidade é:
ρKR = )s
)1(1(
1n
n2
n
1iii∑
=
θ−θ
−−
, onde: (2.3)
θθθθi é a proporção dos examinandos que responderam corretamente ao item i;
n é o número de itens do teste;
s2 é a variância dos escores do teste;
N é o número de examinandos que fizeram o teste.
10
A estimativa da variância do teste s2 é feita com base nos N escores dos
examinandos, conforme (2.4) :
s2 = 1N
)ESCESC(N
1i
2i
−
−∑= (2.4)
A confiabilidade dos testes aplicados aos alunos da disciplina CE204 - Cálculo
de Probabilidades I do Curso de Estatística da Universidade Federal do Paraná, antes
da instrução dessa disciplina e depois da instrução da disciplina, foi calculado por:
ρKR(antes) = )16,8
55,91(
151
512
−−
= 0,87 ρKR(depois) = )41,7
83,91(
151
512
−−
= 0,84
Note que os dois testes possuem um bom grau de confiabilidade, considerando que o
nível ideal deve ser acima de 0,90. A redução da confiabilidade após a instrução da
disciplina pode ser atribuída a uma variação aleatória.
2.1.2 Coeficiente de Correlação Linear de Pearson
Coeficientes de correlação são medidas utilizadas com o objetivo de verificar
relação entre duas variáveis, indicando seu grau de associação.
O coeficiente mais conhecido e utilizado é o coeficiente de correlação de
Pearson. Criado pelo inglês Karl Pearson, este coeficiente indica a correlação linear
entre duas variáveis e seu estimador é definido pela razão entre a covariância das
duas variáveis e o produto de seus desvios padrões, também equivalente à esperança
das duas variáveis aleatórias padronizadas:
ρ (X,Y) =
∑ ∑
∑
= =
=
−−
−−
n
1i
n
1i
2i
2i
n
1iii
)yy()xx(
)yy)(xx( =
yx
xy
ss
S (2.5)
O valor desse coeficiente varia no intervalo de –1 a +1. Valores positivos
indicam uma associação direta entre duas variáveis, ou seja, o crescimento de uma
das variáveis está relacionado ao crescimento da outra. Valores negativos acusam
uma associação inversa entre as duas variáveis, indicando que o aumento na escala
de uma das variáveis está associado ao decréscimo dos valores da outra.
Alguns autores apontam a existência de alta correlação quando o valor
absoluto do coeficiente linear de Pearson é superior a 0,90, porém sabe-se da
11
existência de correlação entre duas variáveis mesmo com valores inferiores ao
mencionado anteriormente. Ainda, se o coeficiente de correlação entre duas variáveis
é nulo elas são não correlacionadas.
É importante ressaltar que o coeficiente de Pearson não deve ser utilizado de
forma indiscriminada, pois apresenta limitações quanto à sua aplicação. Deve ser
usado apenas quando as duas variáveis são contínuas, o relacionamento entre elas é
linear e o número de pares de observações não for muito baixo.
Apesar de o software Bilog apresentar em suas saídas o coeficiente de
Pearson, no caso deste estudo este coeficiente não deve ser considerado, pois a
natureza das variáveis estudadas não é contínua.
2.1.3 Coeficiente de Correlação Bisserial de Ponto
Muito utilizado na área da educação, o coeficiente de correlação bisserial de
ponto é indicado quando uma das variáveis é contínua e a outra é dicotômica. Sua
interpretação é similar a do coeficiente de Pearson e é dado pela seguinte expressão:
pbρ = t
tp
sXX −−−−
.θ
θ
ˆ
ˆ
−−−−1 , (2.6)
onde:
pX é a média dos escores dos examinandos que responderam ao item corretamente,
tX é a média global dos escores,
st é o desvio padrão do teste
θ é a proporção de examinandos que responderam ao item corretamente.
2.1.4 Coeficiente de Correlação Bisserial
Similar ao coeficiente de correlação bisserial de ponto, este coeficiente deve ser
utilizado quando uma das variáveis é discreta e a outra é dicotômica. É aplicado
quando o escore está numa graduação e tem-se certo ou errado para cada item. É
dado pela seguinte expressão:
bρ = t
tp
sXX −−−−
.yθ
, (2.7)
12
onde:
pX é a média dos escores dos examinandos que responderam ao item corretamente,
tX é a média global dos escores,
st é o desvio padrão do teste
θ é a proporção de examinandos que responderam ao item corretamente.
y é a ordenada na curva Normal Padrão correspondente à área de θ
O coeficiente de correlação bisserial corresponde ao índice de discriminação
do item. O software Bilog apresenta os valores estimados para este coeficiente em
suas saídas.
13
2.2 Teoria de Resposta ao Item
As principais ferramentas estatísticas utilizadas na avaliação educacional são a
Teoria Clássica da Avaliação, também conhecida como Teria Clássica de Medidas e a
Teoria da Resposta ao Item - TRI.
A Teoria Clássica da Avaliação foi desenvolvida anteriormente a TRI e
contempla medidas educacionais importantes, porém apresenta algumas limitações
quando comparada a outras teorias aplicadas com a mesma finalidade – a análise de
avaliação educacional.
Por se tratar de uma metodologia computacionalmente complexa, devido às
dificuldades de algumas análises, que exigem grande poder de processamento e
avançados softwares, a utilização da TRI é recente. No Brasil os primeiros estudos
envolvendo esta metodologia se deram apenas no início da década de 90.
Em conseqüência da evolução da tecnologia da informática, o desenvolvimento
e a viabilidade de aplicação da Teoria da Resposta ao Item apresentaram um notável
progresso na última década.
A TRI possui grandes vantagens sobre a Teoria Clássica da Avaliação. O que
diferencia, de forma fundamental, as duas metodologias é que:
• a Teoria Clássica de Medidas se baseia em resultados obtidos em provas através
de escores brutos ou padronizados. Esse tipo de medida apresenta uma limitação
de aplicabilidade, pela dependência ao conjunto de itens que compõem o
instrumento de medida. Por outro lado, os modelos matemáticos da TRI garantem
a independência do item com a habilidade do examinando;
• a TRI propõe modelos probabilísticos para variáveis que não são medidas
diretamente, tendo como característica principal o item, podendo-se entender por
item, neste caso, cada questão da prova aplicada aos estudantes da disciplina
CE204 - Cálculo de Probabilidades I, que constituem a representação da
habilidade que se pretende medir. Na TRI é possível estimar a habilidade do
indivíduo conhecendo-se os parâmetros dos itens; estimar os parâmetros dos
itens conhecendo as habilidades dos indivíduos ou obter a estimação de ambas
as medidas simultaneamente.
A Teoria Clássica, por tratar apenas o escore total de uma avaliação e não tratar
os itens de um instrumento de medida individualmente não possibilita a estimação
dos parâmetros relativos a cada item;
• os modelos utilizados na estimação dos parâmetros da TRI transmitem
informação sobre a probabilidade do examinando, com uma habilidade específica,
14
acertar certo item de um teste; informação cuja obtenção não é possível se
utilizada a Teoria Clássica.
Ainda, a TRI permite uma melhor análise de cada item que constitui o
instrumento de avaliação, considerando algumas características, como as que medem
a capacidade de discriminar os indivíduos e as dificuldades dos itens; permite
conhecer, diretamente, quais itens estão produzindo a informação gerada e também
permite a comparabilidade dos resultados produzidos para grupos de indivíduos
diferentes, mesmo quando instrumentos parcialmente diferentes são aplicados.
A Teoria da Resposta ao Item pode ser utilizada com o propósito de avaliar o
que os alunos sabem e são capazes de fazer, em diversos momentos de seu percurso
escolar, permitindo comparar populações, comparar indivíduos dentro de cada
população e avaliar os itens que compõem o teste e não, somente, o teste como um
todo, como mencionado anteriormente.
A utilização desta nova metodologia nas avaliações educacionais vem
possibilitando avanços em termos do acompanhamento do desenvolvimento escolar
antes não possível, conforme afirma Valle (2001), já que hoje se pode avaliar o
rendimento escolar de uma população pertencente a uma determinada série e ainda
comparar os resultados de provas diferentes aplicadas em populações distintas (de
uma série para outra), desde que haja itens comuns entre as provas.
Na análise dos itens usando a TRI é possível detectar em que etapa de construção
dos conhecimentos os alunos se encontram, ou seja, quais os conteúdos dominados,
podendo avaliar o nível de desempenho como um todo, assim como de cada item
aplicado, identificando quais os temas de maior grau de dificuldade apresentado pelos
alunos. Desta forma, pode-se alcançar um diagnóstico mais preciso, característica que
diferencia a TRI da Teoria Clássica da Avaliação.
2.2.1 Modelos e Métodos de Estimação da TRI
Os modelos matemáticos utilizados pela Teoria da Resposta ao Item envolvem
a determinação dos níveis de discriminação e dificuldade e a probabilidade de acerto
ao acaso para cada item do instrumento de medida de construto.
Esses modelos se diferenciam em termos do número de parâmetros, podendo
apresentar um, dois ou três parâmetros. São utilizados modelos logísticos cuja
aproximação para distribuição normal é obtida substituindo, na função logística, o valor
do parâmetro D de 1 para 1,7. Este fator de escala D faz com que para uma dada
15
habilidade (θ ) a probabilidade P(U =1|θ) seja aproximadamente a mesma nos dois
tipos de modelo e, conseqüentemente, permite que os valores das habilidades dos
indivíduos sejam estimados com valores muito próximos em ambos os casos.
O modelo logístico utilizado neste estudo pressupõe a unidimensionalidade da
prova aplicada, ou seja, deve haver apenas uma habilidade responsável pela
realização de todos os itens desta prova, indicando o grau de desempenho do aluno.
Para este estudo a habilidade responsável pela realização de todos os itens da prova
pode ser descrita como o conhecimento básico em cálculo de probabilidades,
envolvendo conceitos de contagem, números binomiais, análise combinatória e
probabilidade.
Como os itens que compõem a prova são dicotômicos, ou seja, de respostas
certas ou erradas considera-se o modelo de forma dicotômica. Os três modelos
usualmente utilizados são descritos a seguir.
2.2.2 Modelo logístico unidimensional de um parâmetro
Foi criado em 1960 pelo matemático dinamarquês George Rasch e considera
apenas o índice de dificuldade (bi) do item. Também conhecido como “The Rasch” é
dado pela seguinte expressão:
P(Uij = 1 | θj) = )(
)(
1 ij
ij
b
b
e
e−
−
+θ
θ
i = 1, ... ,n , j = 1, .... ,N e θj ∈ R, bi ∈ R (2.8)
onde:
• P(Uij = 1 | θj) é a probabilidade de um examinando escolhido ao acaso e com
habilidade θj responder corretamente ao item i;
• bi é o parâmetro que indica o índice de dificuldade do item i;
• n é o número de itens do teste;
• N é o número de examinandos que realizaram o teste;
O parâmetro de dificuldade do item pode ser alterado à medida em que os
estudantes passam a realizar o teste e a responder corretamente ou incorretamente
ao item. Os valores para bi variam neste modelo de -2 a +2, sendo que valores
próximos a -2 são considerados itens fáceis e os valores próximos a +2 são
considerados itens difíceis.
16
2.2.3 Modelo logístico unidimensional de dois parâmetros
Este modelo foi inicialmente proposto por Lord com base na distribuição normal
padronizada e em seguida Birnbaum alterou o suporte deste modelo para a função
logística. Considera apenas os índices de dificuldade e discriminação do item e é
representado pela seguinte expressão:
P(Ui=1|θ) = )(
)(
1 ii
ii
bDa
bDa
e
e−
−
+ θ
θ
i = 1,2, .... ,n ; θ∈ R ; bi∈ R e ai∈ R e D∈ R, .....(2.9)
onde:
• P(Ui=1|θ) é a probabilidade de que um examinando escolhido ao acaso e com
habilidade θ responda corretamente ao item i;
• bi é o parâmetro que indica o grau de dificuldade do item i;
• ai é o parâmetro que indica o grau de discriminação do item i;
• n é o número de itens do teste;
• D é um fator de escala que aproxima a função logística da Gaussiana
2.2.4 Modelo logístico unidimensional de três parâmetros
Este modelo resultou da incorporação do parâmetro que representa a
probabilidade de acerto ao acaso ao modelo de dois parâmetros. Sua forma é dada
por:
P(Ui=1|θ) = ci+(1- ci) )(
)(
1 ii
ii
bDa
bDa
e
e−
−
+ θ
θ
i = 1,2, ... ,n; θ∈ R; bi∈ R; ai∈ R;ci∈ R+ e D∈ R (2.10)
onde,
• P(Ui=1|θ) é a probabilidade de que um examinando escolhido ao acaso e com
habilidade θ responda corretamente ao item i;
• bi é o parâmetro que indica o grau de dificuldade do item i;
• ai é o parâmetro que indica o grau de discriminação do item i;
• ci é o parâmetro que corresponde a probabilidade de acerto ao acaso do item i;
• n é o número de itens do teste;
• D é um fator de escala que aproxima a função logística da Gaussiana
17
A equação acima representa a probabilidade dos alunos responderem
corretamente aos itens em função dos três parâmetros (a, b e c), cuja relação é
demonstrada através da chamada Curva Característica do Item.
O parâmetro ci é conhecido também como parâmetro da pseudochance e,
segundo, Lord todo examinando sabe responder corretamente ao item i com
probabilidade dada pela expressão acima e se não sabe, tenta acertar ao acaso com
probabilidade ci.
2.2.5 Métodos de Estimação na Teoria da Resposta ao Item
Neste tópico serão verificados métodos de estimação dos parâmetros e
habilidades do modelo logístico unidimensional de três parâmetros. Serão abordados
os métodos que utilizam a máxima verossimilhança, mas é importante ressaltar que
tais parâmetros também podem ser estimados com a aplicação da Inferência
Bayesiana.
O modelo unidimensional de três parâmetros apresenta a seguinte forma:
(2.11) onde:
• θ é a habilidade dp indivíduo j;
• bi é o parâmetro que indica o grau de dificuldade do item i;
• ai é o parâmetro que indica o grau de discriminação do item i;
• ci é o parâmetro que corresponde a probabilidade de acerto ao acaso do item i;
• D é um fator de escala que aproxima a função logística da Gaussiana
Serão consideradas as seguintes notações:
• Y.j = (Y1j , ... , Yij)’ é o vetor de respostas do j-ésimo indivíduo aos I itens ;
• Y.. = (Y’.1, ... , Y’.n)’ é o conjunto integral de respostas;
• ζi = (ai , bi , ci)’ é o vetor dos parâmetros do item i;
• ζ = (ζ’1, ..., ζ’I )’ é o vetor dos parâmetros de todos os itens
• θ = (θ1 , ... , θn )é o vetor de habilidade de todos os indivíduos.
18
2.2.5.1 Estimação dos parâmetros dos itens para habilidades conhecidas
Pela independência entre as respostas dos diferentes indivíduos e a independência
local, podemos escrever a verossimilhança como:
(2.12)
onde na última igualdade temos que a distribuição de Yij, só depende de ζ através de
ζi. Usando a notação Pij = P(Yij = 1 | θj, ζi) e Qij = 1-Pij, temos que:
P(Yij = 1 | θj , ζi) = P(Yij = 1 | θj , ζi)yij
P(Yij = 0 | θj , ζi)1-yij
= Pij yij Qij
1-yij
Portanto, a verossimilhança pode ser descrita como:
(2.13) Aplicando o logaritmo natural: (2.14) O vetor escore (equações de estimação) é dado por: (2.15)
, e
19
Como o sistema de equações descrito acima não possui solução explícita
devemos utilizar um método interativo para resolvê-lo. Os métodos mais utilizados são
o Método de Newton-Raphson e Escore de Fisher. Para a utilização de ambos os
métodos é necessário o cálculo da Matriz Hessiana (Informação de Fisher), que é
dada por:
e
em que
e
Dessa forma, considerando como uma estimativa de ζi na iteração t, os
prodecimentos de Newton-Raphson / Escore de Fisher podem ser definidos como:
Newton – Raphson
(2.16)
(2.17)
(2.18)
(2.19)
20
Escore de Fisher
2.2.5.2 Estimação dos parâmetros dos itens para habilidades desconhecidas
O processo de estimação dos parâmetros dos itens quando as habilidades são
desconhecidas é o método de Máxima Verossimilhança Marginal (MVM). Esse método
possui as vantagens de ser factível computacionalmente e possui propriedades muito
importantes.
A idéia é considerar a existência de uma distribuição de probabilidade
associada às habilidades, e considerar que os n indivíduos representam uma amostra
dessa distribuição.
A densidade g(θ/η) considerada é duplamente diferenciável e as componentes
de η são todas conhecidas. O caso mais comum a ser considerado é aquele em que θ
apresenta distribuição normal, embora essa não seja a única opção para θ.
Logo, a probabilidade marginal de um examinando j apresentar um
determinado padrão de respostas y. j é dada por:
A verossimilhança é dada por:
E a função logverossimilhança é dada por:
Para resolver o problema de indeterminação, mantém-se a componente η fixa,
e então são obtidas as seguintes equações de estimações para os parâmetros.
(2.20)
(2.21)
(2.22)
(2.23)
21
onde:
;
;
;
;
e
.
Como as integrais das equações em (2.24) não possuem solução explícita, é
necessário o emprego de métodos numéricos de aproximação de integrais para a
obtenção das estimativas dos parâmetros a, b e c.
2.2.5.3 Estimação das habilidades
Neste tópico será apresentada a estimação das habilidades por máxima
verossimilhança considerando como conhecidos os parâmetros dos itens.
O procedimento é realizado da seguinte maneira: utilizamos as estimativas dos
parâmetros dos itens na verossimilhança original, obtendo assim uma verossimilhança
perfilada, que possui propriedades semelhantes à verossimilhança contínua.
(2.24)
22
A log-verossimilhança pode ser escrita como:
(2.25)
Expressões relativas aos processos de estimação:
• vetor escore (2.26)
• matriz hessiana
• informação de Fisher
com e
Assim, se considerarmos como uma estimativa de θj , os métodos de
Newton-Raphson e Escore de Fisher podem ser definidos como:
Newton – Raphson
(2.27)
(2.28)
(2.29)
(2.30)
(2.31)
23
Escore de Fisher
(2.32)
t = 0,1,2,… Os estimadores de máxima verossimilhança das habilidades convergem em
distribuição para a normal com média igual ao verdadeiro valor das habilidades e
variância igual à inversa da Matriz Hessiana (Informação de Fisher). A estimação é
feita para cada indivíduo em separado e podem ser usados como parâmetros dos
itens as estimativas baseadas em qualquer método.
24
3 MATERIAIS E MÉTODOS
A avaliação da habilidade do aluno em cálculo de probabilidades, que se
caracteriza por ser uma variável não diretamente medida nem observada, caracteriza
um construto teórico. Esta escala de valores é produzida a partir da prova constituída
de itens - questões do teste – que se associam diretamente ao construto de interesse.
Assim, as variáveis produzidas a partir das questões apresentadas no
instrumento são variáveis indicadoras do construto que se deseja medir. Neste caso, o
construto que se deseja medir é a habilidade dos alunos que realizaram as avaliações
da disciplina CE204-Cálculo de Probabilidades I do Curso de Estatística da
Universidade Federal do Paraná no início e no final do período letivo do primeiro
semestre de 2004.
Com intuito de monitorar o aprendizado dos alunos desta disciplina, foi aplicada
uma avaliação (anexo 01) em dois momentos. Em um primeiro momento, antes da
instrução dessa disciplina, participaram da prova 54 alunos. No segundo momento, no
final do período letivo, a prova foi realizada por 53 alunos.
O instrumento de avaliação media conhecimentos em contagem, números
binomiais, análise combinatória e probabilidade, ao nível do ensino médio. Os
estudantes tinham a opção de não se identificar, motivo pelo qual apenas 39 alunos
foram comparáveis em relação às duas provas.
A correlação usada na análise foi a bisserial, pois os dados são constituídos de
pares de variáveis, uma discreta (pontuação total no teste) e uma dicotômica
(pontuação de acerto ou erro no item).
A confiabilidade foi estimada aplicando-se o método de Kuder-Richardson,
devido à gradação do escore ser dicotômica. Tanto o índice de dificuldade, quanto o
de discriminação da referida avaliação foram estimados com base no modelo logístico
de três parâmetros.
25
3.1 Programas computacionais
Desde as primeiras aplicações da Teoria da Resposta ao Item (TRI), especialistas vêm
desenvolvendo programas computacionais específicos para análise via TRI, devido a
grande quantidade de dados que exigem compilação e também pela complexidade
das operações. No Brasil, os programas mais utilizados para análise de itens
dicotômicos aplicados para modelos unidimensionais com três parâmetros, ou seja,
conjunto de itens medindo um único traço latente, são: BILOG, BICAL, MULTILOG,
OPLM, WINSTEPS, BIGSTEPS, CONQUEST entre outros. Existem diversos tipos de
situações possíveis para a aplicação destes programas de análise via TRI. Como
exemplo, são demonstrados os princípios de aplicação de um deles, o BILOG,
desenvolvido pela Scientific Software, Inc.. Este programa possui como entrada um
arquivo em linguagem própria, extensão .blg,. conforme figura 02.
Figura 02 – Tela de entrada do software BILOG
Onde:
NParm=3 – Número de parâmetros do modelo logístico;
SAVe – Local onde serão salvos os arquivos gerados;
NITems=51 – Número de itens do teste;
SAMple= 54 – Tamanho da amostra, isto é o número de alunos avaliados;
NALt=5 – Número de opções de respostas de cada item..
26
O Bilog desenvolve-se através de três fases:
Fase de entrada e leitura de dados – informações de identificação de cada aluno
com suas respectivas respostas ao teste.
Fase de calibração dos itens – estimação dos parâmetros dos itens novos para o
presente caso. o método de estimação utilizado pelo programa é o de máxima
verossimilhança marginal admitindo-se a independência entre as respostas dos
examinandos.
Fase de estimação das habilidades dos respondentes – para cada aluno a partir
dos resultados obtidos na fase anterior, fornecendo ainda a estimativa da média e
desvio-padrão da distribuição de habilidades para cada população
de alunos.
O programa fornece como resultados de saída os seguintes arquivos:
• Os gráficos com as Curvas Características dos Itens em (antric.plt,
deptric.plt)
Figura 03 – Curva característica do Teste
• Uma tabela com as estatísticas clássicas da avaliação de itens em
(antric.ph1, deptric. ph1)
27
• Uma tabela com o número absoluto de acertos e de erros do examinando,
percentual, estimativa da habilidade e o seu desvio padrão correspondente
(antric.ph3, deptric.ph3 e antric.scor, deptric.scor);
• Uma tabela com as estimativas dos parâmetros dos modelos probabilísticos
da Teoria da Resposta do Item (antric.par, deptric.par);
• Relatórios com todas as fases do processamento: fase 1, fase 2 e fase 3.
Já existem disponíveis implementações feitas para rodar no software R a
análise de itens e equalização de testes utilizando-se a Teoria Clássica e a Teoria da
Resposta ao Item. Os métodos da máxima verossimilhança marginal e equalização a
posteriori média-desvio e média-média são utilizados para a estimação dos
parâmetros dos itens da TRI no R.
Foi utilizado o programa STATGRAPHICS 5.1 para obter um teste “t-pareado”
de comparação das médias dos alunos, bem como, outras estatísticas descritivas
incluídas neste trabalho.
28
4 RESULTADOS E DISCUSSÃO
4.1 Antes da instrução da disciplina.
Neste tópico será analisado o comportamento dos parâmetros dos itens
considerando as avaliações realizadas pelos alunos da disciplina de CE204 – Cálculo
de Probabilidades I, antes da instrução da referida disciplina. A intenção é avaliar os
conhecimentos que os alunos trouxeram dos ensinamentos obtidos no ensino médio,
possibilitando um melhor direcionamento dos conteúdos a serem abordados ao longo
do semestre na instrução da disciplina. A seguir são apresentadas as curvas
características dos itens limites para o teste.
4.1.1 O item mais difícil
O item 45 da avaliação apresentou o maior grau de dificuldade (b45 = 4,73) e foi
o seguinte:
“Sejam A e B eventos tais que P(A) = 0,2, P(B) = p e P(A∪B) = 0,6. O valor de p,
quando A e B são eventos independentes é:”
Figura 04 – Curva característica do item 45
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 45
a = 0.76; b = 4.73; c = 0 .07;
0
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 45
a = 0.76; b = 4.73; c = 0 .07;
0
1
29
O item 45 da avaliação apresentou o maior grau de dificuldade e nota-se pela
figura XX que este item é pouco discriminante (a45 = 0,76), isto é, independente da
habilidade do avaliado, a probabilidade de acertar este item não sofre um aumento
proporcional significativo. Para indivíduos com habilidade entre -5 e aproximadamente
2 a probabilidade de acertar este item parece não se alterar, ao contrário da
proficiência, que pode apresentar uma grande variação.
4.1.2 O item mais fácil
O item 15 da avaliação apresentou o menor grau de dificuldade (b15 = -0,95) e
foi o seguinte:
“Para fazer um passeio de final de semana de Curitiba à Paranaguá posso usar os
seguintes meios de transporte: carro, trem (litorina) e táxi aéreo. Qual o número de
modos de escolher os transportes, sabendo-se que não desejo usar na volta o mesmo
meio de transporte.”
Figura 05 – Curva característica do item 15
O item 15 mostrou-se o mais fácil, isto significa que uma habilidade baixa
consegue uma probabilidade relativamente alta de acertar o item, logo ele é o mais
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 15
a = 0.79; b = -0.95; c = 0.22;
0
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 15
a = 0.79; b = -0.95; c = 0.22;
0
1
30
fácil. Quanto à discriminação observa-se que como a curva é suave, um deslocamento
significativo no eixo da habilidade não causa uma alteração significativa na
probabilidade de acerto do item, logo ele é pouco discriminante.
4.1.3 O item mais discriminante.
O item 40 da avaliação apresentou o maior grau de discriminação (a40 = 1,94) e
foi o seguinte:
“Dois jogadores de xadrez jogaram 120 partidas, das quais F ganhou 60, K 40 e 20
terminaram empatadas. Agora, eles combinaram uma seqüência de 3 partidas no
próximo mês. Então, a probabilidade de K ganhar as três partidas é:”
Figura 06 – Curva característica do item 40
Observa-se que a curva característica do item é muito íngreme, assim um
pequeno deslocamento no eixo da habilidade causa uma alteração significativa na
probabilidade de acertar o item. Portanto, ele é fortemente discriminante, sendo
também considerado um item moderadamente difícil pela escala adotada, com b40=
0,51, sendo que este é um item ideal para que se possa medir o aprendizado dos
alunos.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ace
rta
r o it
em
)
Metric TypeLogistic
Função Característica do Item 40
a = 1.94; b = 0.51; c = 0.13;
0
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
ert
ar o
item
)
Metric TypeLogistic
Função Característica do Item 40
a = 1.94; b = 0.51; c = 0.13;
0
1
31
4.1.4 O item menos discriminante.
O item 11 da avaliação apresentou o menor grau de discriminação (a11 = 0,63)
e foi o seguinte:
“O número de diagonais de um cubo é” Figura 07 – Curva característica do item 11
Pode-se ver na figura (XX) que a curva “S” é pouco suave e se mantém na
parte superior do gráfico, ou seja, na área de probabilidade mediana de acertar o item
e, ainda, ela cresce de forma progressiva. Portanto, este é um item difícil.
Quanto ao índice de discriminação a curva é muito suave indicando que algum
deslocamento positivo no eixo das habilidades praticamente não conduz a uma
mudança significativa na probabilidade de acertar o item.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 11
a = 0.63; b = 1.95; c = 0.24;
0
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 11
a = 0.63; b = 1.95; c = 0.24;
0
1
32
4.1.5 Estimativas dos parâmetros
Na tabela 02 têm-se os valores estimados dos parâmetros de discriminação (a),
dificuldade (b) e probabilidade de acerto ao acaso (c) de todos os itens componentes
do teste. Foi construída uma escala ordinal para classificar os itens de acordo com o
grau de dificuldade, conforme tabela 01:
Tabela 01 – Escala de dificuldade do item
Valor do parâmetro de dificuldade (b) Grau de dificuldade
menor -1,5 Muito Fácil
de - 1,49 a -0,5 Fácil
de -0,49 a 0,49 Moderado
de 0,5 até 1,5 Difícil
acima de 1,5 Muito Difícil
Fonte: os autores. Tabela 02 – Estimativas dos Parâmetros Modelo TRI
ITEM a b c Grau de dificuldade
1 0,809 -0,719 0,208 Fácil 2 0,938 0,817 0,157 Difícil 3 0,777 1,454 0,157 Muito Difícil 4 1,241 1,907 0,107 Muito Difícil
5 1,099 -0,669 0,181 Fácil 6 1,447 0,981 0,135 Difícil 7 1,277 -0,543 0,184 Fácil 8 1,060 1,026 0,128 Difícil 9 0,969 -0,885 0,192 Fácil
10 0,702 3,699 0,117 Muito Difícil 11 0,635 1,952 0,239 Muito Difícil 12 1,036 1,589 0,123 Muito Difícil 13 0,835 1,502 0,218 Muito Difícil 14 0,716 -0,217 0,223 Moderada 15 0,795 -0,949 0,217 Fácil 16 1,259 2,525 0,086 Muito Difícil 17 1,047 3,156 0,085 Muito Difícil 18 0,876 2,109 0,132 Muito Difícil 19 1,229 1,868 0,118 Muito Difícil
20 1,196 1,729 0,164 Muito Difícil 21 1,227 0,749 0,137 Difícil 22 1,220 1,303 0,189 Difícil 23 0,708 0,235 0,204 Moderada 24 1,005 2,670 0,119 Muito Difícil
25 0,937 -0,685 0,208 Fácil 26 1,138 0,268 0,161 Moderada 27 0,918 3,260 0,122 Muito Difícil 28 1,291 0,469 0,149 Moderada 29 1,023 3,273 0,087 Muito Difícil 30 1,219 1,818 0,098 Muito Difícil 31 0,931 1,651 0,133 Muito Difícil 32 1,533 -0,083 0,182 Moderada 33 1,250 1,707 0,136 Muito Difícil 34 1,057 1,647 0,146 Muito Difícil
35 1,381 1,397 0,179 Difícil 36 1,407 1,946 0,134 Muito Difícil
33
Tabela 02 – Estimativas dos Parâmetros Modelo TRI (continuação) ITEM a b c Grau de dificuldade
37 1,087 0,286 0,217 Moderada
38 1,174 1,043 0,157 Difícil 39 1,754 0,763 0,167 Difícil 40 1,943 0,509 0,130 Difícil 41 1,345 0,994 0,115 Difícil 42 1,208 2,408 0,120 Muito Difícil
43 0,708 3,529 0,111 Muito Difícil 44 1,395 1,197 0,174 Difícil 45 0,758 4,732 0,066 Muito Difícil 46 0,917 2,033 0,176 Muito Difícil 47 0,933 2,647 0,183 Muito Difícil
48 1,310 2,086 0,109 Muito Difícil 49 1,531 0,888 0,127 Difícil 50 1,446 0,862 0,134 Difícil 51 1,112 1,776 0,146 Muito Difícil
Fonte: os autores.
Na tabela seguinte constam os parâmetros de todos os itens para análise
através da Teoria clássica da avaliação. De acordo com essa metodologia o
coeficiente de correlação bisserial é utilizado para estimar o índice de discriminação de
um item.
Tabela 03 – Estimativas dos Parâmetros pela Teoria Clássica Correlação Item N° de acertos % de
acertos Logito Pearson Bisserial
1 36.0 0.667 0.69 0.242 0.314
2 21.0 0.389 -0.45 0.370 0.471
3 18.0 0.333 -0.69 0.227 0.294
4 9.0 0.167 -1.61 0.398 0.594
5 35.0 0.648 0.61 0.354 0.456
6 16.0 0.296 -0.86 0.478 0.632
7 34.0 0.630 0.53 0.396 0.506
8 17.0 0.315 -0.78 0.424 0.555
9 37.0 0.685 0.78 0.317 0.414
10 7.0 0.130 -1.90 0.074 0.118
11 22.0 0.407 -0.37 -0.041 -0.052
12 13.0 0.241 -1.15 0.391 0.537
13 21.0 0.389 -0.45 0.199 0.254
14 33.0 0.611 0.45 0.203 0.258
15 38.0 0.704 0.86 0.213 0.281
16 5.0 0.093 -2.28 0.403 0.705
17 4.0 0.074 -2.53 0.296 0.553
18 12.0 0.222 -1.25 0.237 0.330
19 10.0 0.185 -1.48 0.443 0.644
20 14.0 0.259 -1.05 0.322 0.436
21 19.0 0.352 -0.61 0.496 0.639
22 18.0 0.333 -0.69 0.272 0.353
23 29.0 0.537 0.15 0.152 0.191
24 8.0 0.148 -1.75 0.239 0.367
25 36.0 0.667 0.69 0.312 0.405
34
26 25.0 0.463 -0.15 0.433 0.543
Tabela 03 – Estimativas dos Parâmetros pela Teoria Clássica (continuação)
Correlação Item N° de acertos % de acertos Logito
Pearson Bisserial
27 7.0 0.130 -1.90 0.129 0.205
28 22.0 0.407 -0.37 0.462 0.585
29 4.0 0.074 -2.53 0.252 0.470
30 9.0 0.167 -1.61 0.405 0.603
31 14.0 0.259 -1.05 0.355 0.480
32 29.0 0.537 0.15 0.468 0.587
33 12.0 0.222 -1.25 0.373 0.521
34 14.0 0.259 -1.05 0.376 0.509
35 16.0 0.296 -0.86 0.321 0.423
36 10.0 0.185 -1.48 0.290 0.422
37 28.0 0.519 0.07 0.314 0.394
38 18.0 0.333 -0.69 0.348 0.451
39 19.0 0.352 -0.61 0.435 0.560
40 19.0 0.352 -0.61 0.583 0.751
41 15.0 0.278 -0.96 0.525 0.701
42 8.0 0.148 -1.75 0.272 0.418
43 7.0 0.130 -1.90 0.101 0.161
44 17.0 0.315 -0.78 0.347 0.454
45 1.0 0.019 -3.97 -0.126 -0.367
46 15.0 0.278 -0.96 0.231 0.309
47 13.0 0.241 -1.15 0.099 0.136
48 8.0 0.148 -1.75 0.345 0.530
49 16.0 0.296 -0.86 0.505 0.667
50 17.0 0.315 -0.78 0.482 0.630
51 13.0 0.241 -1.15 0.296 0.407
Fonte:os autores.
4.2 Após a Instrução da Disciplina
Neste tópico foi realizada a análise do comportamento dos itens e seus
parâmetros, considerando as avaliações realizadas pelos alunos após a instrução da
disciplina de Cálculo de Probabilidades I. A intenção agora é avaliar os conhecimentos
que os alunos apresentaram após os ensinamentos obtidos no período letivo,
possibilitando posteriormente a análise da evolução desses estudantes e a eficiência
da metodologia de estudo aplicada pelo professor na instrução dos conteúdos
abordados.
4.2.1 O item mais difícil
O item 20 da avaliação apresentou o maior grau de dificuldade (b20 = 3,26) e foi
o seguinte:
“O valor da expressão 0
n
k
n
k=
∑ ak xn-k quando a = x = 1 é :”
Figura 08 – Curva característica do item 20
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 20
a = 0.78; b = 3.26; c = 0.14;
0
1
2
36
Este item, com enunciado descrito anteriormente e curva característica
representada pela figura 08, além de ser tido como o item mais difícil após a instrução
da disciplina é também um item classificado como pouco discriminante (a20 = 0,78),
característica comum a itens considerados difíceis.
Nota-se que a probabilidade de acerto ao item é praticamente a mesma para
indivíduos com habilidade inferior a zero. Apenas para variações na habilidade acima
deste valor é que se pode notar uma alteração na probabilidade de acerto do item.
Logo, pode ser um item considerado muito difícil e apenas examinandos com
habilidades altas possuem probabilidades razoáveis de acertá-lo.
Por exemplo, a probabilidade de um indivíduo com habilidade igual a 2
responder corretamente a este item é de 28%, indicando que mesmo com uma
habilidade alta a probabilidade de acerto ao item não é muito alta, característica da
falta de discriminação deste item.
Neste caso a habilidade mais alta alcançada pelos indivíduos que realizaram a
prova após a instrução desta disciplina foi o valor 2 e do grupo de 53 alunos que
realizaram esta prova apenas 10 alunos responderam corretamente a este item.
37
4.2.2 O item mais fácil
O item 49 da avaliação apresentou o menor grau de dificuldade (b49 = -2,72) e
foi o seguinte:
“Se P(A) = p é a probabilidade de ocorrência do evento A, então a probabilidade do
evento A não ocorrer é:”
Figura 09 – Curva característica do item 49
Pode-se ver na figura 09 que a curva característica do item possui a forma de
“S” e é mais acentuada na parte esquerda superior do gráfico, ou seja, na área onde
as probabilidades de acerto são mais altas, característica de um item considerado
muito fácil. Nota-se que mesmo para habilidades não muito altas, por exemplo
habilidade = –2, a probabilidade de acerto ao item é de aproximadamente 85%.
Dos 53 alunos que realizaram a prova após a instrução desta disciplina 51
responderam corretamente a este item.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 49
a = 1.21; b = -2.72; c = 0.20;
0
1
2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 49
a = 1.21; b = -2.72; c = 0.20;
0
1
2
38
4.2.3 O item mais discriminante.
O item 29 da avaliação apresentou o maior índice de discriminação (a29 = 2,23)
e foi o seguinte:
“Em uma sacola existem 10 cartões com as letras A, M, O e R, sendo 4 letras A, 2
letras M, 2 letras O e 2 letras R. Uma pessoa retira ao acaso quatro cartões da
seguinte forma: retira o cartão, olha a letra e repõe o cartão. Faz isto quatro vezes.
Então, a chance dela conseguir formar a palavra AMOR é:
Figura 10– Curva característica do item 29
Observa-se na curva característica deste item que o primeiro trecho que vai até
a habilidade zero, se mantém praticamente paralelo ao eixo das habilidades e em
seguida sobe consideravelmente. Isto indica um poder de discriminação muito grande,
pois para indivíduos com pouca habilidade (neste caso abaixo de zero) a probabilidade
de acerto do item é muito pequeno, próximo de 8%, que é a probabilidade de acerto
ao acaso deste item, e esta probabilidade não se altera até atingir a habilidade zero.
Após este ponto, nota-se que alterações na habilidade causam alterações
significativas na probabilidade de acerto do item. Não é necessário que o indivíduo
possua habilidade extremamente alta para acertar a este item, porém se possuir uma
habilidade baixa a probabilidade de acerto é baixa.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 29
a = 2.23; b = 1.36; c = 0.08;
0
1
2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 29
a = 2.23; b = 1.36; c = 0.08;
0
1
2
39
4.2.4 O item menos discriminante.
O item 2 da avaliação apresentou o menor índice de discriminação (a2 = 0,55) e
foi o seguinte:
“ O valor da combinação C 42 é: ”
Figura 11– Curva característica do item 2
Ao contrário do item visto anteriormente a curva deste item é muito suave
indicando que deslocamentos no eixo da habilidade causam pequenas alterações na
probabilidade de acertar o item. Isto indica que o item não é discriminante, de acordo
com a estimativa do parâmetro de discriminação, (a2 = 0,55) o menor observado.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 2
a = 0.55; b = 0.27; c = 0.23;
0
1
2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
-5 -4 -3 -2 -1 0 1 2 3 4 5
c
b
Habilidade
PR
OB
(ac
erta
r o
item
)
Metric TypeLogistic
Função Característica do Item 2
a = 0.55; b = 0.27; c = 0.23;
0
1
2
40
4.2.5 Estimativas dos parâmetros
Na tabela 04 têm-se os valores estimados dos parâmetros de discriminação (a),
dificuldade (b) e probabilidade de acerto ao acaso (c) de todos os itens componentes
do teste. Foi construída uma escala ordinal para classificar os itens de acordo com o
grau de dificuldade, conforme tabela 01
Tabela 01 – Escala de dificuldade do item
Valor do parâmetro de dificuldade (b) Grau de dificuldade
Abaixo de -1,5 Muito Fácil
de - 1,49 a -0,5 Fácil
de -0,49 a 0,49 Moderado
de 0,5 até 1,5 Difícil
acima de 1,5 Muito Difícil
Fonte: os autores. Tabela 04 – Estimativas dos Parâmetros Modelo TRI
ITEM a b c Grau de dificuldade 1 0,714 -1,065 0,212 Fácil 2 0,547 0,272 0,226 Moderado 3 1,181 -1,606 0,200 Facílimo 4 1,376 1,980 0,115 Difícilimo 5 1,027 -1,144 0,198 Fácil 6 0,692 -1,092 0,212 Fácil 7 1,330 -1,015 0,187 Fácil 8 0,717 0,621 0,198 Difícil 9 0,750 -1,375 0,208 Fácil
10 1,257 1,427 0,140 Difícilimo 11 0,916 1,268 0,190 Difícil 12 1,093 -0,274 0,196 Moderado 13 0,917 0,463 0,205 Moderado 14 0,729 0,830 0,226 Difícil 15 1,044 -1,113 0,202 Fácil 16 1,120 2,140 0,140 Difícilimo 17 1,498 1,558 0,171 Difícilimo 18 1,109 1,540 0,207 Difícilimo 19 0,911 2,451 0,127 Difícilimo 20 0,779 3,259 0,143 Difícilimo 21 0,861 -1,274 0,201 Fácil 22 0,710 -2,182 0,214 Facílimo 23 0,712 -2,392 0,217 Facílimo 24 1,035 1,833 0,166 Difícilimo 25 0,606 -1,747 0,219 Facílimo 26 1,352 -0,485 0,183 Moderado 27 0,619 2,556 0,214 Difícilimo 28 1,090 -0,371 0,199 Moderado 29 2,229 1,363 0,079 Difícil 30 1,678 0,015 0,207 Moderado 31 1,117 -0,717 0,196 Fácil 32 0,705 -1,592 0,213 Facílimo 33 1,385 0,560 0,201 Difícil 34 0,761 -0,354 0,223 Moderado
41
35 1,917 0,594 0,165 Difícil
Tabela 04 – Estimativas dos Parâmetros Modelo TRI (continuação)
ITEM a b c Grau de dificuldade 36 1,312 0,754 0,160 Difícil 37 1,068 -1,306 0,217 Fácil 38 1,231 -0,476 0,217 Moderado 39 1,250 0,065 0,177 Moderado 40 1,638 -0,209 0,196 Moderado 41 1,510 -0,258 0,234 Moderado 42 1,214 2,287 0,114 Difícilimo 43 1,119 1,757 0,182 Difícilimo 44 0,734 -0,634 0,203 Fácil 45 1,354 1,418 0,146 Difícilimo 46 0,573 0,770 0,224 Difícil 47 0,693 -0,272 0,217 Moderado 48 0,868 0,895 0,172 Difícil 49 1,211 -2,719 0,204 Facílimo 50 1,124 -2,242 0,204 Facílimo 51 1,500 -0,532 0,188 Fácil
Fonte: os autores.
A tabela XX serve para ilustrar os parâmetros estimados de todos os itens
análise através da Teoria clássica da avaliação . De acordo com essa metodologia o
coeficiente de correlação bisserial é utilizado para estimar o índice de discriminação de
um item.
Tabela 05– Estimativas dos Parâmetros pela Teoria Clássica
Correlação Nº do Item
Itens Corretos % Logit
Pearson Bisserial
1 40.0 0.755 1.12 0.153 0.209
2 32.0 0.604 0.42 -0.021 -0.027
3 46.0 0.868 1.88 0.346 0.548
4 10.0 0.189 -1.46 0.314 0.454
5 42.0 0.792 1.34 0.343 0.486
6 40.0 0.755 1.12 0.140 0.192
7 42.0 0.792 1.34 0.455 0.645
8 28.0 0.528 0.11 0.179 0.224
9 42.0 0.792 1.34 0.160 0.227
10 16.0 0.302 -0.84 0.383 0.504
11 22.0 0.415 -0.34 0.287 0.362
12 35.0 0.660 0.66 0.394 0.510
13 29.0 0.547 0.19 0.299 0.376
14 28.0 0.528 0.11 0.121 0.152
15 42.0 0.792 1.34 0.376 0.532
16 12.0 0.226 -1.23 0.264 0.368
17 16.0 0.302 -0.84 0.289 0.381
18 20.0 0.377 -0.50 0.181 0.230
19 11.0 0.208 -1.34 0.288 0.408
20 10.0 0.189 -1.46 0.065 0.095
21 42.0 0.792 1.34 0.277 0.392
22 46.0 0.868 1.88 0.082 0.131
23 47.0 0.887 2.06 0.097 0.160
42
24 16.0 0.302 -0.84 0.278 0.366
Tabela 05 – Estimativas dos Parâmetros pela Teoria Clássica (continuação)
Correlação Nº do Item
Itens Corretos % Logit
Pearson Bisserial
25 43.0 0.811 1.46 0.052 0.075
26 37.0 0.698 0.84 0.480 0.632
27 19.0 0.358 -0.58 -0.077 -0.099
28 36.0 0.679 0.75 0.352 0.459
29 10.0 0.189 -1.46 0.597 0.865
30 33.0 0.623 0.50 0.457 0.584
31 39.0 0.736 1.02 0.331 0.446
32 43.0 0.811 1.46 0.158 0.229
33 27.0 0.509 0.04 0.370 0.463
34 36.0 0.679 0.75 0.158 0.206
35 24.0 0.453 -0.19 0.521 0.654
36 23.0 0.434 -0.27 0.466 0.587
37 44.0 0.830 1.59 0.263 0.390
38 38.0 0.717 0.93 0.313 0.417
39 31.0 0.585 0.34 0.406 0.513
40 35.0 0.660 0.66 0.481 0.622
41 37.0 0.698 0.84 0.379 0.499
42 9.0 0.170 -1.59 0.287 0.426
43 17.0 0.321 -0.75 0.176 0.230
44 37.0 0.698 0.84 0.205 0.269
45 16.0 0.302 -0.84 0.395 0.520
46 29.0 0.547 0.19 -0.002 -0.002
47 35.0 0.660 0.66 0.152 0.197
48 24.0 0.453 -0.19 0.291 0.366
49 51.0 0.962 3.24 0.319 0.736
50 49.0 0.925 2.51 0.316 0.587
51 38.0 0.717 0.93 0.506 0.673 Fonte: os autores.
A Teoria da Resposta ao Item possibilita a estimativa da probabilidade de que
um examinando, que possui habilidade θ, acerte um determinado item com os
parâmetros descrito nas tabelas 02 e 04 . Essas probabilidades foram calculadas e se
encontram no anexo III, para análises mais detalhadas.
43
Habilidades Antes
Habilidades Depois
Fre
qüên
cia
-2,6 -2,1 -1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4 1,9 2,4 2,9 3,4
17
13
9
5
1
3
7
11
15
19
23
4.3 Comparativo Antes x Depois
O objetivo das análises a serem vistas neste tópico é verificar a evolução
apresentada pelos alunos que cursaram a disciplina de CE204 – Cálculo de
Probabilidades I no primeiro semestre de 2004, em relação aos conhecimentos
adquiridos ao longo do período letivo.
Essa evolução foi verificada através da comparação dos resultados fornecidos
pela Teoria de Resposta ao Item em dois momentos – antes e depois da instrução - e
também por outros testes estatísticos. Tais análises estão baseadas nos parâmetros
de dificuldade dos itens estimados pelo modelo logístico de três parâmetros da TRI,
assim como nas escalas de habilidade estimadas pelo referido modelo.
Devido ao fato da prova aplicada apresentar a opção de não identificação por
parte do respondente, algumas análises que se referem às habilidades dos
examinandos nestes dois momentos referem-se apenas aos indivíduos comparáveis
em relação às duas provas, que foram 39 alunos – ver item 4 Materiais e Métodos
4.3.1 Habilidades
Para a comparação das habilidades dos estudantes foram utilizadas medidas
estatísticas descritivas, histograma das distribuições, bem como um teste t-pareado de
comparação de médias antes e depois da instrução da disciplina.
FAZER OS HISTOGRAMAS COM O AJUSTE DA CURVA NO PROGRAMA OU ENTÃO SEM O AJUSTE (SE NÃO FOR POSSÍVEL) Figura 12 - Histogramas de Distribuição das Habilidades Antes e Depois
44
Conforme o histograma da figura 12 nota-se que houve uma diminuição da
dispersão das habilidades após a instrução da disciplina, bem como um deslocamento
da média das mesmas, no sentido positivo, isto leva a conclusão de que o grupo de
alunos se tornou mais homogêneo em termos de conhecimento da disciplina, este fato
se comprova através das tabelas 06 e 07 onde verifica-se um aumento na média das
habilidades e uma diminuição da variância do grupo.
Tabela 06 – Descrição das habilidades de todos os examinandos.
Fonte: os autores
Para fazer uma comparação mais precisa foram considerados somente os 39
examinandos ditos comparáveis. Percebe-se pela tabela 07 que quando se trata
desses indivíduos a diminuição da variância se acentua.
Tabela 07 – Estatísticas descritivas para as habilidades de examinandos comparáveis.
Fonte: os autores.
ESTATÍSTICAS Antes Depois
Observações 54 53
Média -0,292 0,079
Variância 1,102 0,963
Desvio Padrão 1,050 0,981
Mínimo - 2,226 -2,284
Máximo 2,971 1,996
Amplitude 5,197 4,280
ESTATÍSTICAS Antes Depois
Observações 39 39
Média -0,129 0,147
Variância 1,250 0,832
Desvio Padrão 1,118 0,912
Mínimo -2,226 -1,492
Máximo 2,971 1,996
Amplitude 5,197 3,488
45
O teste t de student pareado é um procedimento estatístico que possibilita
testar os dois grupos de dados dos mesmos indivíduos, isto é, os dados antes e
depois da aplicação de um tratamento. Foi este o procedimento adotado para a
comparação da médias das habilidades dos examinandos antes e depois.
Os pressupostos para a realização do teste t-pareado são as seguintes:
• a distribuição das diferenças entre as habilidades dos indivíduos antes e depois
deve apresentar normalidade;
• os indivíduos a serem comparados devem ser os mesmos.
Na verificação do primeiro pressuposto foi realizado um teste de Shapiro-Wilk
para testar a normalidade das diferenças, o p-valor encontrado foi de 0,87, indicando
que a hipótese de normalidade não deve ser rejeitada. Verificada a normalidade,
prosseguimos à realização do teste e encontrou-se um p-valor de 0,06.
4.3.2 Grau de dificuldade
Neste tópico analisaram-se as diferenças entre os graus de dificuldade antes e
depois da instrução da disciplina, com o objetivo de verificar possíveis evoluções no
nível de dificuldade dos itens da prova.
Tabela 08 – Comparativo do grau de dificuldade
ITEM Antes Depois Situação Antes
Situação Depois
1 -0,719 -1,065 Fácil Fácil
2 0,817 0,272 Difícil Moderado 3 1,454 -1,606 Muito Difícil Muito Fácil 4 1,907 1,980 Muito Difícil Muito Difícil 5 -0,669 -1,144 Fácil Fácil 6 0,981 -1,092 Difícil Fácil 7 -0,543 -1,015 Fácil Fácil 8 1,026 0,621 Difícil Difícil 9 -0,885 -1,375 Fácil Fácil 10 3,699 1,427 Muito Difícil Muito Difícil 11 1,952 1,268 Muito Difícil Difícil 12 1,589 -0,274 Muito Difícil Moderada 13 1,502 0,463 Muito Difícil Moderada 14 -0,217 0,830 Moderada Difícil 15 -0,949 -1,113 Fácil Fácil 16 2,525 2,140 Muito Difícil Muito Difícil 17 3,156 1,558 Muito Difícil Muito Difícil 18 2,109 1,540 Muito Difícil Muito Difícil 19 1,868 2,451 Muito Difícil Muito Difícil 20 1,729 3,259 Muito Difícil Muito Difícil 21 0,749 -1,274 Difícil Fácil 22 1,303 -2,182 Difícil Muito Fácil
46
Tabela 08 – Comparativo do grau de dificuldade (continuação)
ITEM Antes Depois Situação Antes
Situação Depois
23 0,235 -2,392 Moderada Muito Fácil 24 2,670 1,833 Muito Difícil Muito Difícil 25 -0,685 -1,747 Fácil Muito Fácil 26 0,268 -0,485 Moderada Moderada 27 3,260 2,556 Muito Difícil Muito Difícil 28 0,469 -0,371 Moderada Moderada 29 3,273 1,363 Muito Difícil Difícil 30 1,818 0,015 Muito Difícil Moderada 31 1,651 -0,717 Muito Difícil Fácil 32 -0,083 -1,592 Moderada Muito Fácil 33 1,707 0,560 Muito Difícil Difícil 34 1,647 -0,354 Muito Difícil Moderada 35 1,397 0,594 Difícil Difícil 36 1,946 0,754 Muito Difícil Difícil 37 0,286 -1,306 Moderada Fácil 38 1,043 -0,476 Difícil Moderada 39 0,763 0,065 Difícil Moderada 40 0,509 -0,209 Difícil Moderada 41 0,994 -0,258 Difícil Moderada 42 2,408 2,287 Muito Difícil Muito Difícil 43 3,529 1,757 Muito Difícil Muito Difícil 44 1,197 -0,634 Difícil Fácil 45 4,732 1,418 Muito Difícil Muito Difícil 46 2,033 0,770 Muito Difícil Difícil 47 2,647 -0,272 Muito Difícil Moderada 48 2,086 0,895 Muito Difícil Difícil 49 0,888 -2,719 Difícil Muito Fácil 50 0,862 -2,242 Difícil Muito Fácil 51 1,776 -0,532 Muito Difícil Fácil
Fonte: os autores.
Para testar as diferenças entre os graus de dificuldade de cada item antes e depois
foi utilizado o teste não-paramétrico de Wilcoxon. Foram verificadas todas as
exigências do teste, que são:
• os pares são mutuamente independentes;
• as diferenças são variáveis contínuas;
• nível de mensuração em escala intervalar.
Para obter o p-valor referente a este teste deve-se comparar a estatística do
teste obtida com os valores tabelados da normal padrão. Neste caso, o valor da
estatística do teste encontrada foi de -5,59. Este valor nos remete a um p-valor muito
inferior a 0,001, o que significa que não aceitamos a hipótese nula, ou seja, existe
diferença significativa entre os índices de dificuldade dos itens antes e depois da
instrução da disciplina de CE-204 Cálculo de Probabilidades I.
47
Tabela 09 – Comparativo do grau de dificuldade agrupado (bi)
Antes Depois Grau de Dificuldade
Nº de Itens % de Itens Nº de Itens % de Itens
Muito Fácil 0 0% 7 14%
Fácil 6 12% 11 22%
Moderado 6 12% 12 24%
Difícil 13 25% 9 18%
Muito Difícil 26 51% 12 24%
Total 51 100% 51 100%
Fonte: os autores
Pela tabela 09 verifica-se que antes da instrução da disciplina 76% dos itens
possuíam um grau de dificuldade considerado difícil ou muito difícil. Após a instrução
observou-se uma redução de 24% neste percentual, isto é, dos 51 itens do teste, 39
estavam num patamar de dificuldade alto e após a instrução apenas 21 itens
permaneceram neste nível. Em conseqüência, a quantidade de itens considerados
fáceis ou muito fáceis apresentou um crescimento. Antes da instrução da disciplina
apenas 6 itens obtiveram essa classificação e após esse número foi de 18 itens.
Esta diferença foi detectada através do teste de Wilcoxon.
48
5 CONCLUSÃO
O presente trabalho diz respeito à avaliação do ensino dos conteúdos de
Contagem, Números Binomiais, Análise Combinatória e Probabilidade, constantes no
programa da disciplina CE204 – Cálculo de Probabilidades I da Universidade Federal
do Paraná. O objetivo é evidenciar a evolução destes alunos durante o semestre
letivo.
Este trabalho procurou apresentar uma análise de itens educacionais dentro da
Teoria Clássica da Avaliação e da Teoria da Resposta ao Item. Detalhamentos da
parte estatística foram feitos e procurou-se utilizar os procedimentos e as
metodologias já consagradas por estudiosos. Isto fica evidente com histogramas
presentes nas análises, pela descrição numérica dos dados e pela análise das Curvas
Características dos Itens, tanto na parte de interpretação de texto quanto na de
matemática.
A aplicação aos dados dos alunos da disciplina de CE204 – Cálculo de
Probabilidades é uma tentativa de contribuir para o esclarecimento das metodologias
de avaliação do ensino.
Concluiu-se que o ensino da disciplina citada foi bem assimilado pelos alunos
durante o aprendizado no semestre letivo e que o instrumento de avaliação utilizado
possui um bom índice de confiabilidade evidenciando a eficácia do método de ensino
proposto pelo professor. Houve uma melhora considerável nas habilidades dos alunos,
denotada também pela redução significativa nos níveis de dificuldade após a instrução
da disciplina.
Os resultados obtidos demonstram a importância de uma matéria que possibilte
um elo entre a matemática do ensino médio e do ensino superior.
Sugere-se apenas que sejam verificados os itens com baixos índices de
discriminação e com baixíssimo ou altíssimo índice de dificuldade, no sentido de
aprimorar a confiabilidade do teste.
É importante ressaltar que a Teoria de Reposta ao Item tem sido aplicada em
outras áreas, além da Educacional. Tais como na produção de indicadores sócio-
econômicos, na área de serviços e controle estatístico de qualidade, como se pode
comprovar por trabalhos de Dissertações de Mestrado desenvolvidos pelos
professores Anselmo Chaves Neto e Dalton F. Andrade.
49
6 CRONOGRAMA Este trabalho foi desenvolvido conforme cronograma abaixo: Figura 13 – Cronograma detalhado do Projeto
FASE MARÇO ABRIL MAIO JUNHO
Reunião Inicial
Definição do tema e orientador
Entrega de um projeto de pesquisa
Revisão de Literatura
Implementação da Metodologia
Aplicação da Metodologia
Apresentações Preliminares
Análise dos Resultados
Edição do Relatório
Apresentação oral do TCC
Correções no Relatório
Entrega da versão final do TCC
50
REFERÊNCIAS BIBLIOGRÁFICAS [1] ANDRADE, DALTON F. – Teoria da Resposta ao Item: Conceitos, Modelos e
Aplicações, Departamento de Informática e Estatística – UFSC, IME/USP – 2005
[2] ANDRADE, D. F.; TAVARES, H. R.; VALLE, R. C. Teoria da Resposta ao
Item:Conceitos e Aplicações. São Paulo: Associação Brasileira de Estatística,
2000.
[3] ANDRADE, D. F. Comparando desempenhos de grupos de alunos por
intermédio da Teoria da Resposta ao Item. Estudos em Avaliação
Educacional, São Paulo, n. 23, p. 31-69, 2001.
[4] CRONBACH, L.J. (1963) – Course improvement through evaluation. Teachers
College Record, 64. Columbia University.
[5] HAMMOND, D.L. (S.D.) - Evaluation at the local level; EPIC Evaluation Center,
Tuckson Arizona.
[6] MCNEMAR, Q. – Psychological Statistics, Ed. John Wiley & Sons, Inc., 4ª ed.,
1969.
[7] METFESSEL , N.S. E MICHAEL, W.B. - A paradigm involving multiple
critgerion measures for evaluation of effectiveness of school programs;
Educational and Psychological Measurement , 27, 1967.
[8] NETO, ANSELMO CHAVES E TURIM, MARIA ELISA – Introdução às Teorias
da Avaliação, Mini-curso no Departamento de Matemática, Centro de Ciências
Exatas e Tecnológicas – CET, Unicentro, Guarapuava- PR
[9] SANTOS, FABRÍCIA DAMANDO E GUEDES, LEONARDO GUERRA DE
REZENDE – Testes adaptativos informatizados baseados em teoria de
resposta ao item utilizados em ambientes virtuais de aprendizagem –
Universidade Federal de Goiás - 2003.
51
[10] TYLER, R.W. - General statement on evaluation; Journal of Educational
Research, n.35, 1942.
[11] VENDRAMINI, CLAUDETE MARIA MEDEIROS, SILVA, MARJORIE CRISTINA
DA E CANALE, MICHELLE – Análise de Itens de uma prova de Raciocínio
Estatístico – Universidade de São Francisco. Psicologia em Estudo – Maringá, set-
dez/2004.
[12] VIANA, H. M. - Introdução à Avaliação Educacional. Ed. Ibrasa Inst. Brasileira
de Difusão Cultural Ltda. S. Paulo- S.P., 1988.
[13] SOARES, TUFI MACHADO – Utilização da Teoria da Resposta ao Item na
Produção de Indicadores Sócio-Economicos – Centro de Avaliação Educacional.
Universidade Federal de Juiz de Fora, jan/2005.
52
ANEXOS
53
Anexo I – Instrumento de Avaliação
UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS
DEPARTAMENTO DE ESTATÍSTICA TESTE DIAGNÓSTICO DE PROBABILIDADE ALUNO:.............................................................................................Curso de Estatística O objetivo deste teste é apenas de informar ao Professor de Cálculo de Probabilidades I os conhecimentos em Contagem, Números Binomiais, Análise Combinatória e Probabilidade, ao nível de 20. grau, trazidos pelos calouros em Estatística. Não se preocupe com nada. Responda calmamente e com responsabilidade as questões a seguir. Quem não quiser não precisa colocar o nome, mas quem desejar conhecer como está, deve escreve-lo. MARQUE A ÚNICA RESPOSTA CORRETA ENTRE AS ALTERNATIVAS. [01] Cinco pessoas estão sentadas em uma mesa redonda. De quantos modos diferentes as cinco pessoas podem se sentar nos cinco lugares.
a) 5
1
[ ] b) 5! [ X ] c) 125 [ ] d) 5 [ ] e) 10 [ ]
[02] O valor da combinação C 4
2 é:
a) 12 [ ] b) 8 [ ] c) 6 [ X ] d) 2 [ ] e) 10 [ ] [03] O valor da expressão x = 3! + C 5
3 é:
a) 6 [ ] b) 10 [ ] c) 12 [ ] d) 20 [ ] e) 16 [ X ] [04] O número de subconjuntos de um conjunto com 3 elementos é: a) 12 [ ] b) 8 [ X ] c) 9 [ ] d) 6 [ ] e) 3 [ ] [05] O número de arranjos tomados de 4 objetos de 2 em 2, ou seja, A 4
2 é:
a) 12 [ X ] b) 8 [ ] c) 9 [ ] d) 4 [ ] e) 3 [ ] [06] O valor da permutação de 0, por definição, é: a) 0 [ ] b) -∞ [ ] c) ∞ [ ] d) 1 [ X ] e) -1 [ ] [07] O número de anagramas da palavra AMOR é:
54
a) 12 [ ] b) 18 [ ] c) 4 [ ] d) 24 [ X ] e) 8 [ ] [08] O valor da expressão Y = 2.A 5
3 + C 53 é:
a) 120 [ ] b) 130 [ X ] c) 100 [ ] d) 124 [ ] e) 8 [ 150 ] [09] O número de modos que se pode formar uma roda com 5 crianças é: a) 120 [ X ] b) 5 [ ] c) 10 [ ] d) 100 [ ] e) 60 [ ] [10] O valor de C 0
3 é: a) 3 [ ] b) -3 [ ] c) 1 [ X ] d) 0 [ ] e) ∞ [ ] [11] O número de diagonais de um cubo é: a) 6 [ ] b) 8 [ ] c) 2 [ ] d) 4 [ X ] e) 3 [ ] [12] Dada a expressão Y = 5C 4
2 - A 42 + P2, onde C significa “combinação”, A significa
“arranjo” e P significa “permutação”, o valor de Y é: a) 6 [ ] b) 30 [ ] c) 12 [ ] d) 18 [ ] e) 20 [ X ] [13] O número de números com dois algarismos que é possível fazer com os cinco primeiros algarismos significativos, ou seja, de 1 a 5 é:
a) 10 [ ] b) 20 [ X ] c) 120 [ ] d) 5 [ ] e) 50 [ ] [14] O número de pares distintos de letras que é possível fazer com as vogais é:
a) 120 [ ] b) 5 [ ] c) 20 [ X ] d) 10 [ ] e) 5 [ ]
[15] Para fazer um passeio de final de semana de Curitiba à Paranaguá posso usar os seguintes meios de transporte: carro, trem (litorina) e táxi aéreo. Qual o número de modos de escolher os transportes, sabendo-se que não desejo usar na volta o mesmo meio de transporte.
a) 3 [ ] b) 4 [ ] c) 2 [ ] d) 6 [ X ] e) 1 [ ] [16] A nova bandeira de uma escola é formada por 5 listras que devem coloridas usando-se as cores: verde, amarela, azul e branca. Mas, as listas adjacentes não devem ter a mesma cor. Então, o número de modos de colorir a bandeira é:
a) 324 [ X ] b) 81 [ ] c) 64 [ ] d) 12 [ ] e) 20 [ ] [17] O número de modos de colocar oito torres iguais em um tabuleiro de xadrez (8x8) de maneira que não haja duas torres na mesma linha e nem na mesma coluna é:
a) 336 [ ] b) 40320 [ X ] c) 8 [ ] d) 20310 [ ] e) 10155 [ ]
55
[18] O número de números naturais de 4 algarismos, (na base 10), formados com os algarismos 2, 3, 4 e 5 e que são menores de 5000 e divisíveis por 5 é:
a) 16 [ ] b) 36 [ ] c) 8 [ ] d) 96 [ ] e) 48 [ X ]
[19] O valor da expressão 0
n
k
n
k=
∑ xk é:
a) xn [ ] b) (x + 1)n [ X ] c) (x – a)n [ ] d) 0
n
k
n
k=
∑ [ ] e) n! [ ]
[20] O valor da expressão 0
n
k
n
k=
∑ ak xn-k quando a = x = 1 é :
a) xn [ ] b) (2x + 1)n [ ] c) (x - a)n [ ] d) 2n [X ] e) a(n!) [ ] [21] O valor da soma S = 12 + 22 + 32 + ..... + n2 é:
a) 2
1
n
k
k=
∑ [ X ] b) ∞ [ ] c) 1
n
k
k=
∑ [ ] d) 2n [ ] e) 2nn [ ]
[22] Se p é a probabilidade que alguém tem de acertar uma aposta, então a probabilidade desse alguém não acertar é dada por; a) p2 [ ] b) 1 – 2p c) 50% [ ] d) 1 – p [ X ] e) p/2 [ ] [23] Na Teoria das Probabilidades define-se espaço amostral de um experimento como o conjunto formado por: a) todos os resultados favoráveis ao experimento [ ] b) todos os resultados desfavoráveis do experimento [ ] c) todos os resultados possíveis de acontecer no experimento [ X ] d) toda a amostra tomada da população [ ] e) todas as combinações necessárias para produzir a amostra [ ] [24] Dentro de uma gaveta tem dois pares de meias, um de azul e outro de preta. De noite apagou a luz e alguém, que está calçando os sapatos, vai retirar da gaveta um par de meias. Então, a chance que ele tem de sair calçado com dois pés de meia de mesma cor é: a) 1/3 [ X ] b) 1/4 [ ] c) 50% [ ] d) 8/9 [ ] e) 2/6 [ ] [25] Uma pessoa tem no bolso três notas de dinheiro. Uma de R$ 2,00, uma de R$1,00 e uma de R$ 5,00. Essa pessoa embarca no ônibus Ligeirinho cuja passagem custa R$ 1,70 e tira do bolso uma das notas para pagar a passagem. Então, a chance que ele tem de não retirar uma segunda nota é:
56
a) 1/3 [ ] b) 1/2 [ ] c) 2/3 [ X ] d) 3/4 [ ] e) 33,33% [ ]
[26] Retirando-se, ao acaso, uma carta de um baralho completo de 52 cartas, a probabilidade de sair um REI ou um ÁS é igual a: a) 7/52 [ ] b) 4/52 [ ] c) 8/13 [ ] d) 25% [ ] e) 2/13 [X ] [27] Retira-se, ao acaso e sem reposição, quatro cartas de um baralho completo de 52 cartas. A probabilidade de sair uma quadra (4 reis, 4 azes, 4 três, etc) é:
a) 13/52
4
[ X ] b) 4/52
4
[ ] c) 4/270720 [ ] d) 13/270720 [ ] e) 13/49 [ ]
[28] Em uma sacola existem 10 cartões com as letras A, M, O e R, sendo 4 letras A, 2 letras M, 2 letras O e 2 letras R. Uma pessoa retira ao acaso quatro cartões da seguinte forma: retira o cartão, olha a letra e repõe o cartão. Faz isto quatro vezes. Então, a chance dela conseguir formar a palavra AMOR é: a) 4/104 [ ] b) 32/104 [X ] c) 16/104 [ ] d) 2/104 [ ] e) 5/104 [ ] [29] No Conselho Setorial de Ciências Exatas existem, entre outros profissionais, 4 estatísticos e 6 matemáticos. O diretor do Setor escolheu ao acaso uma comissão composta por 5 membros entre estes 10 profissionais. Então, a chance da comissão ser composta por 3 matemáticos e 2 estatísticos é: a) 40% [ ] b) 5/42 [ ] c) 8/13 [ ] d) 10/21 [ X ] e) 2/13 [ ] [30] De uma caixa com 10 lâmpadas exatamente iguais, 6 estão boas. Retiram-se sucessivamente 3 lâmpadas. Então, a probabilidade de que todas acendam é:
a) 1/6 [ X ] b) 6/10 [ ] c) 3/10 [ ] d) 10/21 [ ] e) 2/3 [ ] [31] Na caixa do exercício anterior, com 10 lâmpadas exatamente iguais, 6 estão boas. Retiram-se sucessivamente 3 lâmpadas. Então, a probabilidade de que a primeira acenda é: a) 1/6 [ ] b) 3/5 [ X ] c) 1/2 [ ] d) 6/25 [ ] e) 1/4 [ ] [32] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que o casal festeje bodas de prata é:
a) 2/15 [ ] b) 2/5 [ ] c) 4/15 [ X ] d) 1/5 [ ] e) 4/5 [ ] [33] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que o homem fique viúvo antes das bodas de prata é:
a) 2/15 [ X ] b) 2/5 [ ] c) 4/15 [ ] d) 1/5 [ ] e) 4/5 [ ]
57
[34] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que a mulher fique viúva antes das bodas de prata é:
a) 2/15 [ ] b) 2/5 [ X ] c) 4/15 [ ] d) 1/5 [ ] e) 4/5 [ ] [35] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que o casal não esteja vivo é:
a) 2/15 [ ] b) 2/5 [ ] c) 4/15 [ ] d) 1/5 [ X ] e) 4/5 [ ] [36] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que pelo menos um membro do casal esteja vivo é:
a) 2/15 [ ] b) 2/5 [ ] c) 4/15 [ ] d) 1/5 [ ] e) 4/5 [ X ] [37] Dois jogadores de xadrez jogaram 120 partidas, das quais F ganhou 60, K 40 e 20 terminaram empatadas. Agora, eles combinaram uma seqüência de 3 partidas no próximo mês. Então, a probabilidade de F ganhar a primeira é:
a) 1/3 [ ] b) 1/6 [ ] c) 4/15 [ ] d) 1/5 [ ] e) 1/2 [ X ] [38] Na questão anterior a probabilidade de K ganhar a segunda partida é:
a) 1/3 [ X ] b) 1/6 [ ] c) 4/15 [ ] d) 1/5 [ ] e) 1/2 [ ] [39] Na questão 38 a probabilidade de F ganhar as três partidas é:
a) 5/72 [ ] b) 5/36 [ ] c) 4/15 [ ] d) 1/8 [ X ] e) 1/27 [ ] [40] Na questão 38 a probabilidade de K ganhar as três partidas é:
a) 1/3 [ ] b) 1/8 [ ] c) 4/15 [ ] d) 1/64 [ ] e) 1/27 [ X ] [41] Na questão 38 a probabilidade de uma partida qualquer terminar empatada é:
a) 1/3 [ ] b) 1/6 [ X ] c) 1/4 [ ] d) 1/64 [ ] e) 1/27 [ ]
[42] Na questão 38 a probabilidade de duas partidas terminarem empatadas é:
a) 5/36 [ ] b) 1/6 [ ] c) 5/72 [ X ] d) 1/64 [ ] e) 1/27 [ ]
[43] Na questão 38 a probabilidade de F e K ganharem alternadamente é:
a) 5/36 [ X ] b) 1/6 [ ] c) 5/72 [ ] d) 1/64 [ ] e) 1/27 [ ]
[44] Sejam A e B eventos tais que P(A) = 0,2, P(B) = p e P(A∪B) = 0,6. O valor de p, quando A e B são mutuamente exclusivos, é:
58
a) 0,10 [ ] b) 0,2 [ ] c) 0,6 [ ] d) 0,4 [ X ] e) 0,5 [ ] [45] O valor de p, da questão anterior, quando A e B são eventos independentes é: a) 0,10 [ ] b) 0,2 [ ] c) 0,6 [ ] d) 0,4 [ ] e) 0,5 [ X ]
[46] Os eventos A e B são estocasticamente independentes quando: a) não podem ocorrer simultaneamente [ ] b) podem ocorrer simultaneamente [ ] c) a ocorrência de B não tem nada a ver com a ocorrência de A [ X ] d) a ocorrência de B tem muito a ver com a ocorrência de A [ ] e) A ocorrência de A e B é completamente aleatória [ ] [47] Os eventos A e B são mutuamente exclusivos quando: a) não podem ocorrer simultaneamente [ X ] b) podem ocorrer simultaneamente [ ] c) a ocorrência de B não tem nada a ver com a ocorrência de A [ ] d) a ocorrência de B tem muito a ver com a ocorrência de A [ ] e) A ocorrência de A e B é completamente aleatória [ ] [48] De acordo com a definição clássica de probabilidade tem-se que a probabilidade do evento A ocorrer, A ⊆ Ω, é dada: a) pelo número de casos possíveis [ ] b) pelo número de casos favoráveis [ ] c) pela certeza menos o número de casos não favoráveis [ ] d) pelo quociente entre o número de casos favoráveis e o número de casos possíveis [X ] e) P(A) = 1 – P(Ac) [ ] [49] Se P(A) = p é a probabilidade de ocorrência do evento A, então a probabilidade do evento A não ocorrer é:
a) 2p [ ] b) p/2 [ ] c) 1 – p [X] d) 1 – p/2 [ ] e) ½ [ ] [50] Se P(A) = p é a probabilidade de ocorrência do evento A, então a probabilidade do evento A não ocorrer é dada pela probabilidade de ocorrência do evento:
a) disjunto de A [ ] b) vazio [ ] c) dependente de [ ] d) não dependente de A [ ] e) complementar de A [X]
59
[51] Quando dois eventos A e B são mutuamente exclusivos, a probabilidade da ocorrência de A ou de B é dada por:
a) P(A).P(B) [ ] b) P(A) + P(B) [X] c) P(A)/P(B) [ ] d) 1 – P(A).P(B) [ .] e) 1 [ ]
60
Anexo II – Curvas Características de todos os Itens
61
Anexo III - Quadro de Probabilidades
62
Anexo IV - Tabela das Habilidades