ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM · PDF fileanÁlise de itens e da...

Antonio Alves de Oliveira Filho

Mariana Alves da Fonseca

ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM TESTE DE

AVALIAÇÃO DE CONHECIMENTOS - UM ESTUDO DE CASO

Curitiba, Junho de 2006

Projeto apresentado na disciplina de Laboratório de Estatística II do Curso de Estatística do Departamento de Estatística do Setor de Ciências Exatas da Universidade Federal do Paraná. Orientador: Prof. Dr. Anselmo Chaves Neto

2

SUMÁRIO

1 INTRODUÇÃO............................................................................................ 4

1.1 O Problema...................................................................................................... 4

1.2 Objetivo ........................................................................................................... 5

1.3 Justificativa...................................................................................................... 5

1.4 Estrutura do Trabalho .................................................................................... 5

2 REVISÃO DE LITERATURA ...................................................................... 6

2.1 Teoria Clássica ................................................................................................ 6 2.1.1 Confiabilidade de um teste......................................................................... 8 2.1.2 Coeficiente de Correlação Linear de Pearson.......................................... 10 2.1.3 Coeficiente de Correlação Bisserial de Ponto.......................................... 11 2.1.4 Coeficiente de Correlação Bisserial......................................................... 11

2.2 Teoria de Resposta ao Item........................................................................... 13 2.2.1 Modelos e Métodos de Estimação da TRI................................................. 14 2.2.2 Modelo logístico unidimensional de um parâmetro.................................. 15 2.2.3 Modelo logístico unidimensional de dois parâmetros.............................. 16 2.2.4 Modelo logístico unidimensional de três parâmetros ............................... 16 2.2.5 Métodos de Estimação na Teoria da Resposta ao Item............................. 17 2.2.5.1 Estimação dos parâmetros dos itens para habilidades conhecidas........... 18 2.2.5.2 Estimação dos parâmetros dos itens para habilidades desconhecidas...... 20 2.2.5.3 Estimação das habilidades....................................................................... 21

3 MATERIAIS E MÉTODOS........................................................................ 24

3.1 Programas computacionais .......................................................................... 25

4 RESULTADOS E DISCUSSÃO................................................................ 28

4.1 Antes da instrução da disciplina. .................................................................. 28 4.1.1 O item mais difícil ................................................................................... 28 4.1.2 O item mais fácil...................................................................................... 29 4.1.3 O item mais discriminante. ..................................................................... 30 4.1.4 O item menos discriminante..................................................................... 31 4.1.5 Estimativas dos parâmetros ..................................................................... 32

4.2 Após a Instrução da Disciplina ..................................................................... 35 4.2.1 O item mais difícil ................................................................................... 35 4.2.2 O item mais fácil...................................................................................... 37 4.2.3 O item mais discriminante. ...................................................................... 38 4.2.4 O item menos discriminante..................................................................... 39 4.2.5 Estimativas dos parâmetros ..................................................................... 40

3

4.3 Comparativo Antes x Depois......................................................................... 43 4.3.1 Habilidades ............................................................................................. 43 4.3.2 Grau de dificuldade ................................................................................. 45

5 CONCLUSÃO ........................................................................................... 48

6 CRONOGRAMA ....................................................................................... 49

REFERÊNCIAS BIBLIOGRÁFICAS................................................................ 50

ANEXOS .......................................................................................................... 52

Anexo I – Instrumento de Avaliação........................................................................ 53

Anexo II – Curvas Características de todos os Itens ............................................... 60

Anexo III - Quadro de Probabilidades..................................................................... 61

Anexo IV - Tabela das Habilidades.......................................................................... 62

4

1 INTRODUÇÃO

1.1 O Problema

Na educação o papel da avaliação é de fundamental importância, pois depende

dela a progressão serial dos educandos e toda a sua vivência acadêmica. O

instrumento de avaliação (teste, prova, etc) deve ser bem construído e os itens que o

compõem devem ter as propriedades que o classifique como confiável.

Hoje em dia, no Brasil, a educação tem alguns problemas que são originários,

principalmente, da desigualdade na distribuição de renda. Vários estudos apontam a

evasão e a repetência como os principais problemas no Sistema Educacional

Brasileiro. A evasão em alguns cursos do ensino superior é preocupante. Na área de

Ciências Exatas a evasão atinge níveis superiores a 50%.

No que diz respeito à educação propriamente dita, em sala de aula, para

otimizar o aprendizado do aluno é imprescindível que o educador realize

periodicamente avaliação de desempenho dos educandos, assim como avaliação de

seu próprio desempenho.

A adoção desse tipo de procedimento com determinada periodicidade viabiliza

o constante aprimoramento no processo de orientação por parte do educador e

aprendizagem por parte do aluno.

Atrelado à proposta de constante avaliação do planejamento adotado pelo

educador - entenda-se por educador, além do professor de determinada

disciplina/curso também a instituição de ensino onde o aluno está acompanhando este

curso - se faz necessário o uso de ferramentas que permitam a avaliação fiel do que

está sendo desenvolvido atualmente.

Assim, é indispensável à criação e manutenção de um sistema de mensuração

de aprendizagem capaz de fornecer informações consistentes, periódicas e

comparáveis. Logo, as metodologias científicas que fundamentam tal sistema devem

apresentar consistência e confiabilidade nos resultados apresentados.

5

1.2 Objetivo

O objetivo desse trabalho é abordar as teorias da avaliação educacional, tanto

a Teoria Clássica, quanto a Teoria da Resposta ao Item (TRI) nos seus vários

aspectos. E, aplicá-las na análise de dados reais do ensino superior. O instrumento de

avaliação usado para obtenção dos dados foi aplicado aos estudantes da disciplina

CE204-Cálculo de Probabilidades I do Curso de Estatística da Universidade Federal

do Paraná, antes da instrução dessa disciplina e depois da instrução da disciplina,

quatro meses depois. A confiabilidade do instrumento também foi avaliada. O foco

principal do trabalho está na avaliação das habilidades dos alunos em cada item.

1.3 Justificativa

Este trabalho se justifica por várias razões. Em primeiro lugar deve-se

considerar que o estudo das teorias de avaliação (clássica e da resposta ao item -

TRI), pelo conteúdo estatístico que as compõem necessitam ser do conhecimento dos

estatísticos; por outro lado não existe um conhecimento completo sem uma aplicação

real que motive os resultados teóricos e finalmente, a análise do instrumento de

avaliação em uma disciplina fundamental do Bacharelado em Estatística fornece

informações relevantes, tanto para os professores, quanto para a Coordenação do

Curso.

A avaliação tem que se adequar a uma situação de real preocupação com o

aluno e oferecer elementos para que alunos e professores possam esclarecer os seus

reais propósitos, o que pretendem efetivamente conseguir e principalmente que a

avaliação se torne uma motivação para a aprendizagem e o direcionamento correto

dos educandos e também dos professores, por isso acreditamos que este trabalho

possa contribuir de maneira positiva na reflexão da realidade acadêmica.

1.4 Estrutura do Trabalho

Neste trabalho consta, além dessa introdução, uma revisão da literatura sobre

o tema no segundo capítulo, material e métodos no 3° capítulo, resultados e discussão

no 4°capítulo, conclusão no 5°, cronograma, referências bibliográficas e anexos.

6

2 REVISÃO DE LITERATURA

A revisão de literatura aborda livros e artigos que constam da bibliografia, a

seguir, e que tratam dos seguintes assuntos:

• Teoria Clássica da Avaliação - Medidas da confiabilidade de um teste -

Coeficientes de correlação serial, bisserial e de Pearson.

• Teoria da Resposta ao Item.

2.1 Teoria Clássica

É bem conhecido que avaliação educacional, assim como suas medidas,

começaram a tomar corpo com os trabalhos de Ralph W. Tyler, principalmente aquele

publicado no início da década de 40. A partir do trabalho de Tyler, surgiram vários

modelos de avaliação tais como o de Hammond, o de Metfessel e Michael em 1967, e

também os programas de avaliação da década de 1970, como o National Assesment

of Educational Progress entre outros. Heraldo M. Vianna descreve muito bem as idéias

que dominam estes trabalhos no seu livro de 1988. O trabalho de Cronbach de 1963,

propõe várias direções para trabalhos futuros em avaliação educacional. Cronbach

nesse trabalho estuda o relacionamento entre a avaliação e a tomada de decisão. E,

ainda, verifica que uma boa decisão só ocorre quando o problema que provoca a

decisão está bem avaliado; descreve as várias faces da avaliação educacional e

aborda, também, a questão da performance do educando como indicador da qualidade

do curso.

Segundo Ralph W. Tyler o objetivo principal da avaliação é verificar de tempos

em tempos o desempenho da escola na educação dos alunos. Conseqüentemente

este processo favorece uma reflexão, por parte dos educadores, e correção do rumo

dos objetivos educacionais. Como os objetivos educacionais da escola pretendem

alcançar a formação plena do aluno, é de fundamental importância se ter informações

que possam conduzir a uma orientação eficiente durante o processo educacional. E,

essas informações só podem ser fornecidas por avaliações eficientes. Ainda, segundo

Tyler em Viana, o processo de avaliação sistemática favorece a identificação e

correção de vários problemas educacionais que podem estar presentes na

comunidade escolar.

7

Segundo Cronbach, em Viana, a avaliação é uma atividade que tem várias

formas e conseqüentemente provoca vários tipos de decisões. Ainda, Cronbach em

Viana afirma que avaliação conduz a:

• Verificar se a prática didática pedagógica, bem como o material de

instrução, são eficazes;

• Identificar as dificuldades dos educandos e conseqüentemente a um

planejamento educacional adequado;

• Verificar a eficiência do processo educacional como um todo, ou seja,

métodos e professores.

Ainda, segundo Cronbach em Viana, a avaliação visa a melhoria do ensino e

deve ter como objetivo principal verificar os resultados do ensino no comportamento

do educando. De modo que a avaliação, quando bem analisada, aponta as

componentes do ensino que necessitam de um re-trabalho. E, a comparação de

cursos deve ser feita com muito cuidado, pois existem diferenças não só entre os

educandos dentro dos grupos em comparação, como também, e principalmente, entre

os grupos.

Hoje em dia pode-se traçar um paralelo entre o processo de ensino e avaliação

com o chamado ciclo de Shewhart também conhecido como ciclo PDCA, das palavras

em inglês que significam planejar, fazer, avaliar e realimentar. O ciclo PDCA é muito

utilizado na economia visando o aperfeiçoamento dos processos de produção.

Seguindo este ciclo, o que se deve fazer é planejar uma ação, aplicá-la, verificar os

resultados e realimentar o planejamento e continuar sucessivamente e continuamente,

de modo a que se alcance um aperfeiçoamento continuo do processo de ensino na

sua forma plena. A figura 01 representa bem este ciclo:

Figura 01 – Ciclo PDCA

8

Finalmente, de acordo com Viana, pode-se concluir que Ralph W. Tyler trata da

avaliação educacional tendo em vista os objetivos que devem ser fixados levando-se

em conta o estudante, a sociedade e o conteúdo. Já Cronbach considera que a

avaliação educacional exige evidências dos resultados, deve determinar as mudanças

que ocorreram no educando por força do ensino, e, ainda, que a análise dos itens de

forma isolada é mais útil que simplesmente um escore total.

O processo educativo é dinâmico e composto por etapas. Então, a avaliação

educacional tem que corresponder a cada fase e conseqüentemente tem as seguintes

modalidades:

• Diagnóstica, que é feita quando da entrada do educando no sistema e

conseqüentemente suas limitações devem ser identificadas para subsidiar o

planejamento do ensino;

• Formativa, que é feita durante todo o processo de ensino e aprendizagem de modo

a que os educadores possam controlar todo o processo e fazer as correções que

se façam necessárias;

• Somativa, que é feita quando da saída do ciclo didático, de cada unidade ou de

determinada disciplina, de modo que se possa controlar a qualidade dos

resultados finais.

Resumindo, a avaliação conceitualmente trata-se de uma descrição

quantitativa de processos ou educandos quanto a características próprias em conjunto

com juízo de valor e com objetivos bem definidos.

Quanto ao desenvolvimento, trata-se de um processo sistemático e contínuo,

que envolve fins, meios, processos e os resultados, começando com o planejamento e

terminando com o julgamento da eficiência do processo quanto aos resultados obtidos.

Do ponto de vista de modalidades, pode-se dizer que ela é diagnóstica, formativa e

somativa.

2.1.1 Confiabilidade de um teste

A confiabilidade ou fidedignidade de um teste trata da estabilidade dos

resultados e é desejável que eles sejam o mais consistente possível. Então, a

confiabilidade (fidedignidade) de um teste pode ser estimada pelo coeficiente de

correlação entre dois conjuntos de escores obtidos, independentemente, para um

mesmo grupo.

O conceito de confiabilidade está associado com a idéia estatística de

consistência. Mas, confiabilidade não significa um desempenho ideal sem falhas. Na

9

verdade existe uma gradação na confiabilidade, não sendo necessariamente tudo ou

nada.

Um teste é confiável dependendo de três fatores: do teste por si mesmo, das

condições de aplicação e do grupo de examinandos. Assim, a interação entre esses

três fatores determina a confiabilidade do teste.

A confiabilidade é usada para descrever e avaliar os escores que examinandos

obtêm em testes educacionais e é dada pela seguinte expressão:

fi = 2y

2v

i

i

s

s=

2y

22y

i

i

s

ss ε− (2.1)

Este coeficiente corresponde à correlação entre os escores dos testes. A

estimativa indireta dessa quantidade é dada pelo coeficiente de correlação amostral

entre os resultados obtidos nas duas aplicações. Mas, deve-se alertar que a estatística

chamada coeficiente de correlação, embora varie de –1 a +1, deve indicar uma

relação direta, ou seja, sua variação fica definida entre os valores de 0 a 1.

Considerando os resultados de duas aplicações, o estimador é:

fi = ρ (X1,X2) =

∑ ∑

∑

= =

=

−−

−−

n

1i

n

1i

22i2

21i1

n

1i

2i21i1

)xx()xx(

)xx)(xx( (2.2)

Um teste é composto por uma amostra de conteúdos abordados nos itens. No

caso de um tamanho da amostra for muito pequeno, a chance de um examinando não

ter estudado alguns daqueles poucos conteúdos será maior e isto influenciará o seu

escore. Neste contexto, podemos utilizar a fórmula de Spearman-Brown, para medir a

confiabilidade de um teste, porém neste estudo caso não deve ser aplicada,por se

tratar de uma amostra de tamanho razoável.

Uma outra maneira de se medir a confiabilidade de um teste é aplicar a fórmula

de Kuder-Richardson, indicado para este estudo, por se tratar de dados discretos e

todos os itens serem dicotômicos.

A expressão desse estimador da confiabilidade é:

ρKR = )s

)1(1(

1n

n2

n

1iii∑

=

θ−θ

−−

, onde: (2.3)

θθθθi é a proporção dos examinandos que responderam corretamente ao item i;

n é o número de itens do teste;

s2 é a variância dos escores do teste;

N é o número de examinandos que fizeram o teste.

10

A estimativa da variância do teste s2 é feita com base nos N escores dos

examinandos, conforme (2.4) :

s2 = 1N

)ESCESC(N

1i

2i

−

−∑= (2.4)

A confiabilidade dos testes aplicados aos alunos da disciplina CE204 - Cálculo

de Probabilidades I do Curso de Estatística da Universidade Federal do Paraná, antes

da instrução dessa disciplina e depois da instrução da disciplina, foi calculado por:

ρKR(antes) = )16,8

55,91(

151

512

−−

= 0,87 ρKR(depois) = )41,7

83,91(

151

512

−−

= 0,84

Note que os dois testes possuem um bom grau de confiabilidade, considerando que o

nível ideal deve ser acima de 0,90. A redução da confiabilidade após a instrução da

disciplina pode ser atribuída a uma variação aleatória.

2.1.2 Coeficiente de Correlação Linear de Pearson

Coeficientes de correlação são medidas utilizadas com o objetivo de verificar

relação entre duas variáveis, indicando seu grau de associação.

O coeficiente mais conhecido e utilizado é o coeficiente de correlação de

Pearson. Criado pelo inglês Karl Pearson, este coeficiente indica a correlação linear

entre duas variáveis e seu estimador é definido pela razão entre a covariância das

duas variáveis e o produto de seus desvios padrões, também equivalente à esperança

das duas variáveis aleatórias padronizadas:

ρ (X,Y) =

∑ ∑

∑

= =

=

−−

−−

n

1i

n

1i

2i

2i

n

1iii

)yy()xx(

)yy)(xx( =

yx

xy

ss

S (2.5)

O valor desse coeficiente varia no intervalo de –1 a +1. Valores positivos

indicam uma associação direta entre duas variáveis, ou seja, o crescimento de uma

das variáveis está relacionado ao crescimento da outra. Valores negativos acusam

uma associação inversa entre as duas variáveis, indicando que o aumento na escala

de uma das variáveis está associado ao decréscimo dos valores da outra.

Alguns autores apontam a existência de alta correlação quando o valor

absoluto do coeficiente linear de Pearson é superior a 0,90, porém sabe-se da

11

existência de correlação entre duas variáveis mesmo com valores inferiores ao

mencionado anteriormente. Ainda, se o coeficiente de correlação entre duas variáveis

é nulo elas são não correlacionadas.

É importante ressaltar que o coeficiente de Pearson não deve ser utilizado de

forma indiscriminada, pois apresenta limitações quanto à sua aplicação. Deve ser

usado apenas quando as duas variáveis são contínuas, o relacionamento entre elas é

linear e o número de pares de observações não for muito baixo.

Apesar de o software Bilog apresentar em suas saídas o coeficiente de

Pearson, no caso deste estudo este coeficiente não deve ser considerado, pois a

natureza das variáveis estudadas não é contínua.

2.1.3 Coeficiente de Correlação Bisserial de Ponto

Muito utilizado na área da educação, o coeficiente de correlação bisserial de

ponto é indicado quando uma das variáveis é contínua e a outra é dicotômica. Sua

interpretação é similar a do coeficiente de Pearson e é dado pela seguinte expressão:

pbρ = t

tp

sXX −−−−

.θ

θ

ˆ

ˆ

−−−−1 , (2.6)

onde:

pX é a média dos escores dos examinandos que responderam ao item corretamente,

tX é a média global dos escores,

st é o desvio padrão do teste

θ é a proporção de examinandos que responderam ao item corretamente.

2.1.4 Coeficiente de Correlação Bisserial

Similar ao coeficiente de correlação bisserial de ponto, este coeficiente deve ser

utilizado quando uma das variáveis é discreta e a outra é dicotômica. É aplicado

quando o escore está numa graduação e tem-se certo ou errado para cada item. É

dado pela seguinte expressão:

bρ = t

tp

sXX −−−−

.yθ

, (2.7)

12

onde:

pX é a média dos escores dos examinandos que responderam ao item corretamente,

tX é a média global dos escores,

st é o desvio padrão do teste

θ é a proporção de examinandos que responderam ao item corretamente.

y é a ordenada na curva Normal Padrão correspondente à área de θ

O coeficiente de correlação bisserial corresponde ao índice de discriminação

do item. O software Bilog apresenta os valores estimados para este coeficiente em

suas saídas.

13

2.2 Teoria de Resposta ao Item

As principais ferramentas estatísticas utilizadas na avaliação educacional são a

Teoria Clássica da Avaliação, também conhecida como Teria Clássica de Medidas e a

Teoria da Resposta ao Item - TRI.

A Teoria Clássica da Avaliação foi desenvolvida anteriormente a TRI e

contempla medidas educacionais importantes, porém apresenta algumas limitações

quando comparada a outras teorias aplicadas com a mesma finalidade – a análise de

avaliação educacional.

Por se tratar de uma metodologia computacionalmente complexa, devido às

dificuldades de algumas análises, que exigem grande poder de processamento e

avançados softwares, a utilização da TRI é recente. No Brasil os primeiros estudos

envolvendo esta metodologia se deram apenas no início da década de 90.

Em conseqüência da evolução da tecnologia da informática, o desenvolvimento

e a viabilidade de aplicação da Teoria da Resposta ao Item apresentaram um notável

progresso na última década.

A TRI possui grandes vantagens sobre a Teoria Clássica da Avaliação. O que

diferencia, de forma fundamental, as duas metodologias é que:

• a Teoria Clássica de Medidas se baseia em resultados obtidos em provas através

de escores brutos ou padronizados. Esse tipo de medida apresenta uma limitação

de aplicabilidade, pela dependência ao conjunto de itens que compõem o

instrumento de medida. Por outro lado, os modelos matemáticos da TRI garantem

a independência do item com a habilidade do examinando;

• a TRI propõe modelos probabilísticos para variáveis que não são medidas

diretamente, tendo como característica principal o item, podendo-se entender por

item, neste caso, cada questão da prova aplicada aos estudantes da disciplina

CE204 - Cálculo de Probabilidades I, que constituem a representação da

habilidade que se pretende medir. Na TRI é possível estimar a habilidade do

indivíduo conhecendo-se os parâmetros dos itens; estimar os parâmetros dos

itens conhecendo as habilidades dos indivíduos ou obter a estimação de ambas

as medidas simultaneamente.

A Teoria Clássica, por tratar apenas o escore total de uma avaliação e não tratar

os itens de um instrumento de medida individualmente não possibilita a estimação

dos parâmetros relativos a cada item;

• os modelos utilizados na estimação dos parâmetros da TRI transmitem

informação sobre a probabilidade do examinando, com uma habilidade específica,

14

acertar certo item de um teste; informação cuja obtenção não é possível se

utilizada a Teoria Clássica.

Ainda, a TRI permite uma melhor análise de cada item que constitui o

instrumento de avaliação, considerando algumas características, como as que medem

a capacidade de discriminar os indivíduos e as dificuldades dos itens; permite

conhecer, diretamente, quais itens estão produzindo a informação gerada e também

permite a comparabilidade dos resultados produzidos para grupos de indivíduos

diferentes, mesmo quando instrumentos parcialmente diferentes são aplicados.

A Teoria da Resposta ao Item pode ser utilizada com o propósito de avaliar o

que os alunos sabem e são capazes de fazer, em diversos momentos de seu percurso

escolar, permitindo comparar populações, comparar indivíduos dentro de cada

população e avaliar os itens que compõem o teste e não, somente, o teste como um

todo, como mencionado anteriormente.

A utilização desta nova metodologia nas avaliações educacionais vem

possibilitando avanços em termos do acompanhamento do desenvolvimento escolar

antes não possível, conforme afirma Valle (2001), já que hoje se pode avaliar o

rendimento escolar de uma população pertencente a uma determinada série e ainda

comparar os resultados de provas diferentes aplicadas em populações distintas (de

uma série para outra), desde que haja itens comuns entre as provas.

Na análise dos itens usando a TRI é possível detectar em que etapa de construção

dos conhecimentos os alunos se encontram, ou seja, quais os conteúdos dominados,

podendo avaliar o nível de desempenho como um todo, assim como de cada item

aplicado, identificando quais os temas de maior grau de dificuldade apresentado pelos

alunos. Desta forma, pode-se alcançar um diagnóstico mais preciso, característica que

diferencia a TRI da Teoria Clássica da Avaliação.

2.2.1 Modelos e Métodos de Estimação da TRI

Os modelos matemáticos utilizados pela Teoria da Resposta ao Item envolvem

a determinação dos níveis de discriminação e dificuldade e a probabilidade de acerto

ao acaso para cada item do instrumento de medida de construto.

Esses modelos se diferenciam em termos do número de parâmetros, podendo

apresentar um, dois ou três parâmetros. São utilizados modelos logísticos cuja

aproximação para distribuição normal é obtida substituindo, na função logística, o valor

do parâmetro D de 1 para 1,7. Este fator de escala D faz com que para uma dada

15

habilidade (θ ) a probabilidade P(U =1|θ) seja aproximadamente a mesma nos dois

tipos de modelo e, conseqüentemente, permite que os valores das habilidades dos

indivíduos sejam estimados com valores muito próximos em ambos os casos.

O modelo logístico utilizado neste estudo pressupõe a unidimensionalidade da

prova aplicada, ou seja, deve haver apenas uma habilidade responsável pela

realização de todos os itens desta prova, indicando o grau de desempenho do aluno.

Para este estudo a habilidade responsável pela realização de todos os itens da prova

pode ser descrita como o conhecimento básico em cálculo de probabilidades,

envolvendo conceitos de contagem, números binomiais, análise combinatória e

probabilidade.

Como os itens que compõem a prova são dicotômicos, ou seja, de respostas

certas ou erradas considera-se o modelo de forma dicotômica. Os três modelos

usualmente utilizados são descritos a seguir.

2.2.2 Modelo logístico unidimensional de um parâmetro

Foi criado em 1960 pelo matemático dinamarquês George Rasch e considera

apenas o índice de dificuldade (bi) do item. Também conhecido como “The Rasch” é

dado pela seguinte expressão:

P(Uij = 1 | θj) = )(

)(

1 ij

ij

b

b

e

e−

−

+θ

θ

i = 1, ... ,n , j = 1, .... ,N e θj ∈ R, bi ∈ R (2.8)

onde:

• P(Uij = 1 | θj) é a probabilidade de um examinando escolhido ao acaso e com

habilidade θj responder corretamente ao item i;

• bi é o parâmetro que indica o índice de dificuldade do item i;

• n é o número de itens do teste;

• N é o número de examinandos que realizaram o teste;

O parâmetro de dificuldade do item pode ser alterado à medida em que os

estudantes passam a realizar o teste e a responder corretamente ou incorretamente

ao item. Os valores para bi variam neste modelo de -2 a +2, sendo que valores

próximos a -2 são considerados itens fáceis e os valores próximos a +2 são

considerados itens difíceis.

16

2.2.3 Modelo logístico unidimensional de dois parâmetros

Este modelo foi inicialmente proposto por Lord com base na distribuição normal

padronizada e em seguida Birnbaum alterou o suporte deste modelo para a função

logística. Considera apenas os índices de dificuldade e discriminação do item e é

representado pela seguinte expressão:

P(Ui=1|θ) = )(

)(

1 ii

ii

bDa

bDa

e

e−

−

+ θ

θ

i = 1,2, .... ,n ; θ∈ R ; bi∈ R e ai∈ R e D∈ R, .....(2.9)

onde:

• P(Ui=1|θ) é a probabilidade de que um examinando escolhido ao acaso e com

habilidade θ responda corretamente ao item i;

• bi é o parâmetro que indica o grau de dificuldade do item i;

• ai é o parâmetro que indica o grau de discriminação do item i;


• D é um fator de escala que aproxima a função logística da Gaussiana

2.2.4 Modelo logístico unidimensional de três parâmetros

Este modelo resultou da incorporação do parâmetro que representa a

probabilidade de acerto ao acaso ao modelo de dois parâmetros. Sua forma é dada

por:

P(Ui=1|θ) = ci+(1- ci) )(

)(

1 ii

ii

bDa

bDa

e

e−

−

+ θ

θ

i = 1,2, ... ,n; θ∈ R; bi∈ R; ai∈ R;ci∈ R+ e D∈ R (2.10)

onde,

• P(Ui=1|θ) é a probabilidade de que um examinando escolhido ao acaso e com

habilidade θ responda corretamente ao item i;



• ci é o parâmetro que corresponde a probabilidade de acerto ao acaso do item i;



17

A equação acima representa a probabilidade dos alunos responderem

corretamente aos itens em função dos três parâmetros (a, b e c), cuja relação é

demonstrada através da chamada Curva Característica do Item.

O parâmetro ci é conhecido também como parâmetro da pseudochance e,

segundo, Lord todo examinando sabe responder corretamente ao item i com

probabilidade dada pela expressão acima e se não sabe, tenta acertar ao acaso com

probabilidade ci.

2.2.5 Métodos de Estimação na Teoria da Resposta ao Item

Neste tópico serão verificados métodos de estimação dos parâmetros e

habilidades do modelo logístico unidimensional de três parâmetros. Serão abordados

os métodos que utilizam a máxima verossimilhança, mas é importante ressaltar que

tais parâmetros também podem ser estimados com a aplicação da Inferência

Bayesiana.

O modelo unidimensional de três parâmetros apresenta a seguinte forma:

(2.11) onde:

• θ é a habilidade dp indivíduo j;



• ci é o parâmetro que corresponde a probabilidade de acerto ao acaso do item i;


Serão consideradas as seguintes notações:

• Y.j = (Y1j , ... , Yij)’ é o vetor de respostas do j-ésimo indivíduo aos I itens ;

• Y.. = (Y’.1, ... , Y’.n)’ é o conjunto integral de respostas;

• ζi = (ai , bi , ci)’ é o vetor dos parâmetros do item i;

• ζ = (ζ’1, ..., ζ’I )’ é o vetor dos parâmetros de todos os itens

• θ = (θ1 , ... , θn )é o vetor de habilidade de todos os indivíduos.

18

2.2.5.1 Estimação dos parâmetros dos itens para habilidades conhecidas

Pela independência entre as respostas dos diferentes indivíduos e a independência

local, podemos escrever a verossimilhança como:

(2.12)

onde na última igualdade temos que a distribuição de Yij, só depende de ζ através de

ζi. Usando a notação Pij = P(Yij = 1 | θj, ζi) e Qij = 1-Pij, temos que:

P(Yij = 1 | θj , ζi) = P(Yij = 1 | θj , ζi)yij

P(Yij = 0 | θj , ζi)1-yij

= Pij yij Qij

1-yij

Portanto, a verossimilhança pode ser descrita como:

(2.13) Aplicando o logaritmo natural: (2.14) O vetor escore (equações de estimação) é dado por: (2.15)

, e

19

Como o sistema de equações descrito acima não possui solução explícita

devemos utilizar um método interativo para resolvê-lo. Os métodos mais utilizados são

o Método de Newton-Raphson e Escore de Fisher. Para a utilização de ambos os

métodos é necessário o cálculo da Matriz Hessiana (Informação de Fisher), que é

dada por:

e

em que

e

Dessa forma, considerando como uma estimativa de ζi na iteração t, os

prodecimentos de Newton-Raphson / Escore de Fisher podem ser definidos como:

Newton – Raphson

(2.16)

(2.17)

(2.18)

(2.19)

20

Escore de Fisher

2.2.5.2 Estimação dos parâmetros dos itens para habilidades desconhecidas

O processo de estimação dos parâmetros dos itens quando as habilidades são

desconhecidas é o método de Máxima Verossimilhança Marginal (MVM). Esse método

possui as vantagens de ser factível computacionalmente e possui propriedades muito

importantes.

A idéia é considerar a existência de uma distribuição de probabilidade

associada às habilidades, e considerar que os n indivíduos representam uma amostra

dessa distribuição.

A densidade g(θ/η) considerada é duplamente diferenciável e as componentes

de η são todas conhecidas. O caso mais comum a ser considerado é aquele em que θ

apresenta distribuição normal, embora essa não seja a única opção para θ.

Logo, a probabilidade marginal de um examinando j apresentar um

determinado padrão de respostas y. j é dada por:

A verossimilhança é dada por:

E a função logverossimilhança é dada por:

Para resolver o problema de indeterminação, mantém-se a componente η fixa,

e então são obtidas as seguintes equações de estimações para os parâmetros.

(2.20)

(2.21)

(2.22)

(2.23)

21

onde:

;

;

;

;

e

.

Como as integrais das equações em (2.24) não possuem solução explícita, é

necessário o emprego de métodos numéricos de aproximação de integrais para a

obtenção das estimativas dos parâmetros a, b e c.

2.2.5.3 Estimação das habilidades

Neste tópico será apresentada a estimação das habilidades por máxima

verossimilhança considerando como conhecidos os parâmetros dos itens.

O procedimento é realizado da seguinte maneira: utilizamos as estimativas dos

parâmetros dos itens na verossimilhança original, obtendo assim uma verossimilhança

perfilada, que possui propriedades semelhantes à verossimilhança contínua.

(2.24)

22

A log-verossimilhança pode ser escrita como:

(2.25)

Expressões relativas aos processos de estimação:

• vetor escore (2.26)

• matriz hessiana

• informação de Fisher

com e

Assim, se considerarmos como uma estimativa de θj , os métodos de

Newton-Raphson e Escore de Fisher podem ser definidos como:

Newton – Raphson

(2.27)

(2.28)

(2.29)

(2.30)

(2.31)

23

Escore de Fisher

(2.32)

t = 0,1,2,… Os estimadores de máxima verossimilhança das habilidades convergem em

distribuição para a normal com média igual ao verdadeiro valor das habilidades e

variância igual à inversa da Matriz Hessiana (Informação de Fisher). A estimação é

feita para cada indivíduo em separado e podem ser usados como parâmetros dos

itens as estimativas baseadas em qualquer método.

24

3 MATERIAIS E MÉTODOS

A avaliação da habilidade do aluno em cálculo de probabilidades, que se

caracteriza por ser uma variável não diretamente medida nem observada, caracteriza

um construto teórico. Esta escala de valores é produzida a partir da prova constituída

de itens - questões do teste – que se associam diretamente ao construto de interesse.

Assim, as variáveis produzidas a partir das questões apresentadas no

instrumento são variáveis indicadoras do construto que se deseja medir. Neste caso, o

construto que se deseja medir é a habilidade dos alunos que realizaram as avaliações

da disciplina CE204-Cálculo de Probabilidades I do Curso de Estatística da

Universidade Federal do Paraná no início e no final do período letivo do primeiro

semestre de 2004.

Com intuito de monitorar o aprendizado dos alunos desta disciplina, foi aplicada

uma avaliação (anexo 01) em dois momentos. Em um primeiro momento, antes da

instrução dessa disciplina, participaram da prova 54 alunos. No segundo momento, no

final do período letivo, a prova foi realizada por 53 alunos.

O instrumento de avaliação media conhecimentos em contagem, números

binomiais, análise combinatória e probabilidade, ao nível do ensino médio. Os

estudantes tinham a opção de não se identificar, motivo pelo qual apenas 39 alunos

foram comparáveis em relação às duas provas.

A correlação usada na análise foi a bisserial, pois os dados são constituídos de

pares de variáveis, uma discreta (pontuação total no teste) e uma dicotômica

(pontuação de acerto ou erro no item).

A confiabilidade foi estimada aplicando-se o método de Kuder-Richardson,

devido à gradação do escore ser dicotômica. Tanto o índice de dificuldade, quanto o

de discriminação da referida avaliação foram estimados com base no modelo logístico

de três parâmetros.

25

3.1 Programas computacionais

Desde as primeiras aplicações da Teoria da Resposta ao Item (TRI), especialistas vêm

desenvolvendo programas computacionais específicos para análise via TRI, devido a

grande quantidade de dados que exigem compilação e também pela complexidade

das operações. No Brasil, os programas mais utilizados para análise de itens

dicotômicos aplicados para modelos unidimensionais com três parâmetros, ou seja,

conjunto de itens medindo um único traço latente, são: BILOG, BICAL, MULTILOG,

OPLM, WINSTEPS, BIGSTEPS, CONQUEST entre outros. Existem diversos tipos de

situações possíveis para a aplicação destes programas de análise via TRI. Como

exemplo, são demonstrados os princípios de aplicação de um deles, o BILOG,

desenvolvido pela Scientific Software, Inc.. Este programa possui como entrada um

arquivo em linguagem própria, extensão .blg,. conforme figura 02.

Figura 02 – Tela de entrada do software BILOG

Onde:

NParm=3 – Número de parâmetros do modelo logístico;

SAVe – Local onde serão salvos os arquivos gerados;

NITems=51 – Número de itens do teste;

SAMple= 54 – Tamanho da amostra, isto é o número de alunos avaliados;

NALt=5 – Número de opções de respostas de cada item..

26

O Bilog desenvolve-se através de três fases:

Fase de entrada e leitura de dados – informações de identificação de cada aluno

com suas respectivas respostas ao teste.

Fase de calibração dos itens – estimação dos parâmetros dos itens novos para o

presente caso. o método de estimação utilizado pelo programa é o de máxima

verossimilhança marginal admitindo-se a independência entre as respostas dos

examinandos.

Fase de estimação das habilidades dos respondentes – para cada aluno a partir

dos resultados obtidos na fase anterior, fornecendo ainda a estimativa da média e

desvio-padrão da distribuição de habilidades para cada população

de alunos.

O programa fornece como resultados de saída os seguintes arquivos:

• Os gráficos com as Curvas Características dos Itens em (antric.plt,

deptric.plt)

Figura 03 – Curva característica do Teste

• Uma tabela com as estatísticas clássicas da avaliação de itens em

(antric.ph1, deptric. ph1)

27

• Uma tabela com o número absoluto de acertos e de erros do examinando,

percentual, estimativa da habilidade e o seu desvio padrão correspondente

(antric.ph3, deptric.ph3 e antric.scor, deptric.scor);

• Uma tabela com as estimativas dos parâmetros dos modelos probabilísticos

da Teoria da Resposta do Item (antric.par, deptric.par);

• Relatórios com todas as fases do processamento: fase 1, fase 2 e fase 3.

Já existem disponíveis implementações feitas para rodar no software R a

análise de itens e equalização de testes utilizando-se a Teoria Clássica e a Teoria da

Resposta ao Item. Os métodos da máxima verossimilhança marginal e equalização a

posteriori média-desvio e média-média são utilizados para a estimação dos

parâmetros dos itens da TRI no R.

Foi utilizado o programa STATGRAPHICS 5.1 para obter um teste “t-pareado”

de comparação das médias dos alunos, bem como, outras estatísticas descritivas

incluídas neste trabalho.

28

4 RESULTADOS E DISCUSSÃO

4.1 Antes da instrução da disciplina.

Neste tópico será analisado o comportamento dos parâmetros dos itens

considerando as avaliações realizadas pelos alunos da disciplina de CE204 – Cálculo

de Probabilidades I, antes da instrução da referida disciplina. A intenção é avaliar os

conhecimentos que os alunos trouxeram dos ensinamentos obtidos no ensino médio,

possibilitando um melhor direcionamento dos conteúdos a serem abordados ao longo

do semestre na instrução da disciplina. A seguir são apresentadas as curvas

características dos itens limites para o teste.

4.1.1 O item mais difícil

O item 45 da avaliação apresentou o maior grau de dificuldade (b45 = 4,73) e foi

o seguinte:

“Sejam A e B eventos tais que P(A) = 0,2, P(B) = p e P(A∪B) = 0,6. O valor de p,

quando A e B são eventos independentes é:”

Figura 04 – Curva característica do item 45

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic

Função Característica do Item 45

a = 0.76; b = 4.73; c = 0 .07;

0

1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 0.76; b = 4.73; c = 0 .07;

0

1

29

O item 45 da avaliação apresentou o maior grau de dificuldade e nota-se pela

figura XX que este item é pouco discriminante (a45 = 0,76), isto é, independente da

habilidade do avaliado, a probabilidade de acertar este item não sofre um aumento

proporcional significativo. Para indivíduos com habilidade entre -5 e aproximadamente

2 a probabilidade de acertar este item parece não se alterar, ao contrário da

proficiência, que pode apresentar uma grande variação.

4.1.2 O item mais fácil

O item 15 da avaliação apresentou o menor grau de dificuldade (b15 = -0,95) e

foi o seguinte:

“Para fazer um passeio de final de semana de Curitiba à Paranaguá posso usar os

seguintes meios de transporte: carro, trem (litorina) e táxi aéreo. Qual o número de

modos de escolher os transportes, sabendo-se que não desejo usar na volta o mesmo

meio de transporte.”


O item 15 mostrou-se o mais fácil, isto significa que uma habilidade baixa

consegue uma probabilidade relativamente alta de acertar o item, logo ele é o mais

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 0.79; b = -0.95; c = 0.22;

0

1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 0.79; b = -0.95; c = 0.22;

0

1

30

fácil. Quanto à discriminação observa-se que como a curva é suave, um deslocamento

significativo no eixo da habilidade não causa uma alteração significativa na

probabilidade de acerto do item, logo ele é pouco discriminante.

4.1.3 O item mais discriminante.

O item 40 da avaliação apresentou o maior grau de discriminação (a40 = 1,94) e

foi o seguinte:

“Dois jogadores de xadrez jogaram 120 partidas, das quais F ganhou 60, K 40 e 20

terminaram empatadas. Agora, eles combinaram uma seqüência de 3 partidas no

próximo mês. Então, a probabilidade de K ganhar as três partidas é:”


Observa-se que a curva característica do item é muito íngreme, assim um

pequeno deslocamento no eixo da habilidade causa uma alteração significativa na

probabilidade de acertar o item. Portanto, ele é fortemente discriminante, sendo

também considerado um item moderadamente difícil pela escala adotada, com b40=

0,51, sendo que este é um item ideal para que se possa medir o aprendizado dos

alunos.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ace

rta

r o it

em

)

Metric TypeLogistic


a = 1.94; b = 0.51; c = 0.13;

0

1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

ert

ar o

item

)

Metric TypeLogistic


a = 1.94; b = 0.51; c = 0.13;

0

1

31

4.1.4 O item menos discriminante.

O item 11 da avaliação apresentou o menor grau de discriminação (a11 = 0,63)

e foi o seguinte:

“O número de diagonais de um cubo é” Figura 07 – Curva característica do item 11

Pode-se ver na figura (XX) que a curva “S” é pouco suave e se mantém na

parte superior do gráfico, ou seja, na área de probabilidade mediana de acertar o item

e, ainda, ela cresce de forma progressiva. Portanto, este é um item difícil.

Quanto ao índice de discriminação a curva é muito suave indicando que algum

deslocamento positivo no eixo das habilidades praticamente não conduz a uma

mudança significativa na probabilidade de acertar o item.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 0.63; b = 1.95; c = 0.24;

0

1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 0.63; b = 1.95; c = 0.24;

0

1

32

4.1.5 Estimativas dos parâmetros

Na tabela 02 têm-se os valores estimados dos parâmetros de discriminação (a),

dificuldade (b) e probabilidade de acerto ao acaso (c) de todos os itens componentes

do teste. Foi construída uma escala ordinal para classificar os itens de acordo com o

grau de dificuldade, conforme tabela 01:

Tabela 01 – Escala de dificuldade do item

Valor do parâmetro de dificuldade (b) Grau de dificuldade

menor -1,5 Muito Fácil

de - 1,49 a -0,5 Fácil

de -0,49 a 0,49 Moderado

de 0,5 até 1,5 Difícil

acima de 1,5 Muito Difícil

Fonte: os autores. Tabela 02 – Estimativas dos Parâmetros Modelo TRI

ITEM a b c Grau de dificuldade

1 0,809 -0,719 0,208 Fácil 2 0,938 0,817 0,157 Difícil 3 0,777 1,454 0,157 Muito Difícil 4 1,241 1,907 0,107 Muito Difícil

5 1,099 -0,669 0,181 Fácil 6 1,447 0,981 0,135 Difícil 7 1,277 -0,543 0,184 Fácil 8 1,060 1,026 0,128 Difícil 9 0,969 -0,885 0,192 Fácil

10 0,702 3,699 0,117 Muito Difícil 11 0,635 1,952 0,239 Muito Difícil 12 1,036 1,589 0,123 Muito Difícil 13 0,835 1,502 0,218 Muito Difícil 14 0,716 -0,217 0,223 Moderada 15 0,795 -0,949 0,217 Fácil 16 1,259 2,525 0,086 Muito Difícil 17 1,047 3,156 0,085 Muito Difícil 18 0,876 2,109 0,132 Muito Difícil 19 1,229 1,868 0,118 Muito Difícil

20 1,196 1,729 0,164 Muito Difícil 21 1,227 0,749 0,137 Difícil 22 1,220 1,303 0,189 Difícil 23 0,708 0,235 0,204 Moderada 24 1,005 2,670 0,119 Muito Difícil

25 0,937 -0,685 0,208 Fácil 26 1,138 0,268 0,161 Moderada 27 0,918 3,260 0,122 Muito Difícil 28 1,291 0,469 0,149 Moderada 29 1,023 3,273 0,087 Muito Difícil 30 1,219 1,818 0,098 Muito Difícil 31 0,931 1,651 0,133 Muito Difícil 32 1,533 -0,083 0,182 Moderada 33 1,250 1,707 0,136 Muito Difícil 34 1,057 1,647 0,146 Muito Difícil

35 1,381 1,397 0,179 Difícil 36 1,407 1,946 0,134 Muito Difícil

33

Tabela 02 – Estimativas dos Parâmetros Modelo TRI (continuação) ITEM a b c Grau de dificuldade

37 1,087 0,286 0,217 Moderada

38 1,174 1,043 0,157 Difícil 39 1,754 0,763 0,167 Difícil 40 1,943 0,509 0,130 Difícil 41 1,345 0,994 0,115 Difícil 42 1,208 2,408 0,120 Muito Difícil

43 0,708 3,529 0,111 Muito Difícil 44 1,395 1,197 0,174 Difícil 45 0,758 4,732 0,066 Muito Difícil 46 0,917 2,033 0,176 Muito Difícil 47 0,933 2,647 0,183 Muito Difícil

48 1,310 2,086 0,109 Muito Difícil 49 1,531 0,888 0,127 Difícil 50 1,446 0,862 0,134 Difícil 51 1,112 1,776 0,146 Muito Difícil

Fonte: os autores.

Na tabela seguinte constam os parâmetros de todos os itens para análise

através da Teoria clássica da avaliação. De acordo com essa metodologia o

coeficiente de correlação bisserial é utilizado para estimar o índice de discriminação de

um item.

Tabela 03 – Estimativas dos Parâmetros pela Teoria Clássica Correlação Item N° de acertos % de

acertos Logito Pearson Bisserial

1 36.0 0.667 0.69 0.242 0.314

2 21.0 0.389 -0.45 0.370 0.471

3 18.0 0.333 -0.69 0.227 0.294

4 9.0 0.167 -1.61 0.398 0.594

5 35.0 0.648 0.61 0.354 0.456

6 16.0 0.296 -0.86 0.478 0.632

7 34.0 0.630 0.53 0.396 0.506

8 17.0 0.315 -0.78 0.424 0.555

9 37.0 0.685 0.78 0.317 0.414

10 7.0 0.130 -1.90 0.074 0.118

11 22.0 0.407 -0.37 -0.041 -0.052

12 13.0 0.241 -1.15 0.391 0.537

13 21.0 0.389 -0.45 0.199 0.254

14 33.0 0.611 0.45 0.203 0.258

15 38.0 0.704 0.86 0.213 0.281

16 5.0 0.093 -2.28 0.403 0.705

17 4.0 0.074 -2.53 0.296 0.553

18 12.0 0.222 -1.25 0.237 0.330

19 10.0 0.185 -1.48 0.443 0.644

20 14.0 0.259 -1.05 0.322 0.436

21 19.0 0.352 -0.61 0.496 0.639

22 18.0 0.333 -0.69 0.272 0.353

23 29.0 0.537 0.15 0.152 0.191

24 8.0 0.148 -1.75 0.239 0.367

25 36.0 0.667 0.69 0.312 0.405

34

26 25.0 0.463 -0.15 0.433 0.543

Tabela 03 – Estimativas dos Parâmetros pela Teoria Clássica (continuação)

Correlação Item N° de acertos % de acertos Logito

Pearson Bisserial

27 7.0 0.130 -1.90 0.129 0.205

28 22.0 0.407 -0.37 0.462 0.585

29 4.0 0.074 -2.53 0.252 0.470

30 9.0 0.167 -1.61 0.405 0.603

31 14.0 0.259 -1.05 0.355 0.480

32 29.0 0.537 0.15 0.468 0.587

33 12.0 0.222 -1.25 0.373 0.521

34 14.0 0.259 -1.05 0.376 0.509

35 16.0 0.296 -0.86 0.321 0.423

36 10.0 0.185 -1.48 0.290 0.422

37 28.0 0.519 0.07 0.314 0.394

38 18.0 0.333 -0.69 0.348 0.451

39 19.0 0.352 -0.61 0.435 0.560

40 19.0 0.352 -0.61 0.583 0.751

41 15.0 0.278 -0.96 0.525 0.701

42 8.0 0.148 -1.75 0.272 0.418

43 7.0 0.130 -1.90 0.101 0.161

44 17.0 0.315 -0.78 0.347 0.454

45 1.0 0.019 -3.97 -0.126 -0.367

46 15.0 0.278 -0.96 0.231 0.309

47 13.0 0.241 -1.15 0.099 0.136

48 8.0 0.148 -1.75 0.345 0.530

49 16.0 0.296 -0.86 0.505 0.667

50 17.0 0.315 -0.78 0.482 0.630

51 13.0 0.241 -1.15 0.296 0.407

Fonte:os autores.

4.2 Após a Instrução da Disciplina

Neste tópico foi realizada a análise do comportamento dos itens e seus

parâmetros, considerando as avaliações realizadas pelos alunos após a instrução da

disciplina de Cálculo de Probabilidades I. A intenção agora é avaliar os conhecimentos

que os alunos apresentaram após os ensinamentos obtidos no período letivo,

possibilitando posteriormente a análise da evolução desses estudantes e a eficiência

da metodologia de estudo aplicada pelo professor na instrução dos conteúdos

abordados.

4.2.1 O item mais difícil

O item 20 da avaliação apresentou o maior grau de dificuldade (b20 = 3,26) e foi

o seguinte:

“O valor da expressão 0

n

k

n

k=

∑ ak xn-k quando a = x = 1 é :”


0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 0.78; b = 3.26; c = 0.14;

0

1

2

36

Este item, com enunciado descrito anteriormente e curva característica

representada pela figura 08, além de ser tido como o item mais difícil após a instrução

da disciplina é também um item classificado como pouco discriminante (a20 = 0,78),

característica comum a itens considerados difíceis.

Nota-se que a probabilidade de acerto ao item é praticamente a mesma para

indivíduos com habilidade inferior a zero. Apenas para variações na habilidade acima

deste valor é que se pode notar uma alteração na probabilidade de acerto do item.

Logo, pode ser um item considerado muito difícil e apenas examinandos com

habilidades altas possuem probabilidades razoáveis de acertá-lo.

Por exemplo, a probabilidade de um indivíduo com habilidade igual a 2

responder corretamente a este item é de 28%, indicando que mesmo com uma

habilidade alta a probabilidade de acerto ao item não é muito alta, característica da

falta de discriminação deste item.

Neste caso a habilidade mais alta alcançada pelos indivíduos que realizaram a

prova após a instrução desta disciplina foi o valor 2 e do grupo de 53 alunos que

realizaram esta prova apenas 10 alunos responderam corretamente a este item.

37

4.2.2 O item mais fácil

O item 49 da avaliação apresentou o menor grau de dificuldade (b49 = -2,72) e

foi o seguinte:

“Se P(A) = p é a probabilidade de ocorrência do evento A, então a probabilidade do

evento A não ocorrer é:”


Pode-se ver na figura 09 que a curva característica do item possui a forma de

“S” e é mais acentuada na parte esquerda superior do gráfico, ou seja, na área onde

as probabilidades de acerto são mais altas, característica de um item considerado

muito fácil. Nota-se que mesmo para habilidades não muito altas, por exemplo

habilidade = –2, a probabilidade de acerto ao item é de aproximadamente 85%.

Dos 53 alunos que realizaram a prova após a instrução desta disciplina 51

responderam corretamente a este item.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 1.21; b = -2.72; c = 0.20;

0

1

2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 1.21; b = -2.72; c = 0.20;

0

1

2

38

4.2.3 O item mais discriminante.

O item 29 da avaliação apresentou o maior índice de discriminação (a29 = 2,23)

e foi o seguinte:

“Em uma sacola existem 10 cartões com as letras A, M, O e R, sendo 4 letras A, 2

letras M, 2 letras O e 2 letras R. Uma pessoa retira ao acaso quatro cartões da

seguinte forma: retira o cartão, olha a letra e repõe o cartão. Faz isto quatro vezes.

Então, a chance dela conseguir formar a palavra AMOR é:

Figura 10– Curva característica do item 29

Observa-se na curva característica deste item que o primeiro trecho que vai até

a habilidade zero, se mantém praticamente paralelo ao eixo das habilidades e em

seguida sobe consideravelmente. Isto indica um poder de discriminação muito grande,

pois para indivíduos com pouca habilidade (neste caso abaixo de zero) a probabilidade

de acerto do item é muito pequeno, próximo de 8%, que é a probabilidade de acerto

ao acaso deste item, e esta probabilidade não se altera até atingir a habilidade zero.

Após este ponto, nota-se que alterações na habilidade causam alterações

significativas na probabilidade de acerto do item. Não é necessário que o indivíduo

possua habilidade extremamente alta para acertar a este item, porém se possuir uma

habilidade baixa a probabilidade de acerto é baixa.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 2.23; b = 1.36; c = 0.08;

0

1

2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 2.23; b = 1.36; c = 0.08;

0

1

2

39

4.2.4 O item menos discriminante.

O item 2 da avaliação apresentou o menor índice de discriminação (a2 = 0,55) e

foi o seguinte:

“ O valor da combinação C 42 é: ”

Figura 11– Curva característica do item 2

Ao contrário do item visto anteriormente a curva deste item é muito suave

indicando que deslocamentos no eixo da habilidade causam pequenas alterações na

probabilidade de acertar o item. Isto indica que o item não é discriminante, de acordo

com a estimativa do parâmetro de discriminação, (a2 = 0,55) o menor observado.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 0.55; b = 0.27; c = 0.23;

0

1

2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-5 -4 -3 -2 -1 0 1 2 3 4 5

c

b

Habilidade

PR

OB

(ac

erta

r o

item

)

Metric TypeLogistic


a = 0.55; b = 0.27; c = 0.23;

0

1

2

40

4.2.5 Estimativas dos parâmetros

Na tabela 04 têm-se os valores estimados dos parâmetros de discriminação (a),

dificuldade (b) e probabilidade de acerto ao acaso (c) de todos os itens componentes

do teste. Foi construída uma escala ordinal para classificar os itens de acordo com o

grau de dificuldade, conforme tabela 01

Tabela 01 – Escala de dificuldade do item

Valor do parâmetro de dificuldade (b) Grau de dificuldade

Abaixo de -1,5 Muito Fácil

de - 1,49 a -0,5 Fácil

de -0,49 a 0,49 Moderado

de 0,5 até 1,5 Difícil

acima de 1,5 Muito Difícil

Fonte: os autores. Tabela 04 – Estimativas dos Parâmetros Modelo TRI

ITEM a b c Grau de dificuldade 1 0,714 -1,065 0,212 Fácil 2 0,547 0,272 0,226 Moderado 3 1,181 -1,606 0,200 Facílimo 4 1,376 1,980 0,115 Difícilimo 5 1,027 -1,144 0,198 Fácil 6 0,692 -1,092 0,212 Fácil 7 1,330 -1,015 0,187 Fácil 8 0,717 0,621 0,198 Difícil 9 0,750 -1,375 0,208 Fácil

10 1,257 1,427 0,140 Difícilimo 11 0,916 1,268 0,190 Difícil 12 1,093 -0,274 0,196 Moderado 13 0,917 0,463 0,205 Moderado 14 0,729 0,830 0,226 Difícil 15 1,044 -1,113 0,202 Fácil 16 1,120 2,140 0,140 Difícilimo 17 1,498 1,558 0,171 Difícilimo 18 1,109 1,540 0,207 Difícilimo 19 0,911 2,451 0,127 Difícilimo 20 0,779 3,259 0,143 Difícilimo 21 0,861 -1,274 0,201 Fácil 22 0,710 -2,182 0,214 Facílimo 23 0,712 -2,392 0,217 Facílimo 24 1,035 1,833 0,166 Difícilimo 25 0,606 -1,747 0,219 Facílimo 26 1,352 -0,485 0,183 Moderado 27 0,619 2,556 0,214 Difícilimo 28 1,090 -0,371 0,199 Moderado 29 2,229 1,363 0,079 Difícil 30 1,678 0,015 0,207 Moderado 31 1,117 -0,717 0,196 Fácil 32 0,705 -1,592 0,213 Facílimo 33 1,385 0,560 0,201 Difícil 34 0,761 -0,354 0,223 Moderado

41

35 1,917 0,594 0,165 Difícil

Tabela 04 – Estimativas dos Parâmetros Modelo TRI (continuação)

ITEM a b c Grau de dificuldade 36 1,312 0,754 0,160 Difícil 37 1,068 -1,306 0,217 Fácil 38 1,231 -0,476 0,217 Moderado 39 1,250 0,065 0,177 Moderado 40 1,638 -0,209 0,196 Moderado 41 1,510 -0,258 0,234 Moderado 42 1,214 2,287 0,114 Difícilimo 43 1,119 1,757 0,182 Difícilimo 44 0,734 -0,634 0,203 Fácil 45 1,354 1,418 0,146 Difícilimo 46 0,573 0,770 0,224 Difícil 47 0,693 -0,272 0,217 Moderado 48 0,868 0,895 0,172 Difícil 49 1,211 -2,719 0,204 Facílimo 50 1,124 -2,242 0,204 Facílimo 51 1,500 -0,532 0,188 Fácil

Fonte: os autores.

A tabela XX serve para ilustrar os parâmetros estimados de todos os itens

análise através da Teoria clássica da avaliação . De acordo com essa metodologia o

coeficiente de correlação bisserial é utilizado para estimar o índice de discriminação de

um item.

Tabela 05– Estimativas dos Parâmetros pela Teoria Clássica

Correlação Nº do Item

Itens Corretos % Logit

Pearson Bisserial

1 40.0 0.755 1.12 0.153 0.209

2 32.0 0.604 0.42 -0.021 -0.027

3 46.0 0.868 1.88 0.346 0.548

4 10.0 0.189 -1.46 0.314 0.454

5 42.0 0.792 1.34 0.343 0.486

6 40.0 0.755 1.12 0.140 0.192

7 42.0 0.792 1.34 0.455 0.645

8 28.0 0.528 0.11 0.179 0.224

9 42.0 0.792 1.34 0.160 0.227

10 16.0 0.302 -0.84 0.383 0.504

11 22.0 0.415 -0.34 0.287 0.362

12 35.0 0.660 0.66 0.394 0.510

13 29.0 0.547 0.19 0.299 0.376

14 28.0 0.528 0.11 0.121 0.152

15 42.0 0.792 1.34 0.376 0.532

16 12.0 0.226 -1.23 0.264 0.368

17 16.0 0.302 -0.84 0.289 0.381

18 20.0 0.377 -0.50 0.181 0.230

19 11.0 0.208 -1.34 0.288 0.408

20 10.0 0.189 -1.46 0.065 0.095

21 42.0 0.792 1.34 0.277 0.392

22 46.0 0.868 1.88 0.082 0.131

23 47.0 0.887 2.06 0.097 0.160

42

24 16.0 0.302 -0.84 0.278 0.366

Tabela 05 – Estimativas dos Parâmetros pela Teoria Clássica (continuação)

Correlação Nº do Item

Itens Corretos % Logit

Pearson Bisserial

25 43.0 0.811 1.46 0.052 0.075

26 37.0 0.698 0.84 0.480 0.632

27 19.0 0.358 -0.58 -0.077 -0.099

28 36.0 0.679 0.75 0.352 0.459

29 10.0 0.189 -1.46 0.597 0.865

30 33.0 0.623 0.50 0.457 0.584

31 39.0 0.736 1.02 0.331 0.446

32 43.0 0.811 1.46 0.158 0.229

33 27.0 0.509 0.04 0.370 0.463

34 36.0 0.679 0.75 0.158 0.206

35 24.0 0.453 -0.19 0.521 0.654

36 23.0 0.434 -0.27 0.466 0.587

37 44.0 0.830 1.59 0.263 0.390

38 38.0 0.717 0.93 0.313 0.417

39 31.0 0.585 0.34 0.406 0.513

40 35.0 0.660 0.66 0.481 0.622

41 37.0 0.698 0.84 0.379 0.499

42 9.0 0.170 -1.59 0.287 0.426

43 17.0 0.321 -0.75 0.176 0.230

44 37.0 0.698 0.84 0.205 0.269

45 16.0 0.302 -0.84 0.395 0.520

46 29.0 0.547 0.19 -0.002 -0.002

47 35.0 0.660 0.66 0.152 0.197

48 24.0 0.453 -0.19 0.291 0.366

49 51.0 0.962 3.24 0.319 0.736

50 49.0 0.925 2.51 0.316 0.587

51 38.0 0.717 0.93 0.506 0.673 Fonte: os autores.

A Teoria da Resposta ao Item possibilita a estimativa da probabilidade de que

um examinando, que possui habilidade θ, acerte um determinado item com os

parâmetros descrito nas tabelas 02 e 04 . Essas probabilidades foram calculadas e se

encontram no anexo III, para análises mais detalhadas.

43

Habilidades Antes

Habilidades Depois

Fre

qüên

cia

-2,6 -2,1 -1,6 -1,1 -0,6 -0,1 0,4 0,9 1,4 1,9 2,4 2,9 3,4

17

13

9

5

1

3

7

11

15

19

23

4.3 Comparativo Antes x Depois

O objetivo das análises a serem vistas neste tópico é verificar a evolução

apresentada pelos alunos que cursaram a disciplina de CE204 – Cálculo de

Probabilidades I no primeiro semestre de 2004, em relação aos conhecimentos

adquiridos ao longo do período letivo.

Essa evolução foi verificada através da comparação dos resultados fornecidos

pela Teoria de Resposta ao Item em dois momentos – antes e depois da instrução - e

também por outros testes estatísticos. Tais análises estão baseadas nos parâmetros

de dificuldade dos itens estimados pelo modelo logístico de três parâmetros da TRI,

assim como nas escalas de habilidade estimadas pelo referido modelo.

Devido ao fato da prova aplicada apresentar a opção de não identificação por

parte do respondente, algumas análises que se referem às habilidades dos

examinandos nestes dois momentos referem-se apenas aos indivíduos comparáveis

em relação às duas provas, que foram 39 alunos – ver item 4 Materiais e Métodos

4.3.1 Habilidades

Para a comparação das habilidades dos estudantes foram utilizadas medidas

estatísticas descritivas, histograma das distribuições, bem como um teste t-pareado de

comparação de médias antes e depois da instrução da disciplina.

FAZER OS HISTOGRAMAS COM O AJUSTE DA CURVA NO PROGRAMA OU ENTÃO SEM O AJUSTE (SE NÃO FOR POSSÍVEL) Figura 12 - Histogramas de Distribuição das Habilidades Antes e Depois

44

Conforme o histograma da figura 12 nota-se que houve uma diminuição da

dispersão das habilidades após a instrução da disciplina, bem como um deslocamento

da média das mesmas, no sentido positivo, isto leva a conclusão de que o grupo de

alunos se tornou mais homogêneo em termos de conhecimento da disciplina, este fato

se comprova através das tabelas 06 e 07 onde verifica-se um aumento na média das

habilidades e uma diminuição da variância do grupo.

Tabela 06 – Descrição das habilidades de todos os examinandos.

Fonte: os autores

Para fazer uma comparação mais precisa foram considerados somente os 39

examinandos ditos comparáveis. Percebe-se pela tabela 07 que quando se trata

desses indivíduos a diminuição da variância se acentua.

Tabela 07 – Estatísticas descritivas para as habilidades de examinandos comparáveis.

Fonte: os autores.

ESTATÍSTICAS Antes Depois

Observações 54 53

Média -0,292 0,079

Variância 1,102 0,963

Desvio Padrão 1,050 0,981

Mínimo - 2,226 -2,284

Máximo 2,971 1,996

Amplitude 5,197 4,280

ESTATÍSTICAS Antes Depois

Observações 39 39

Média -0,129 0,147

Variância 1,250 0,832

Desvio Padrão 1,118 0,912

Mínimo -2,226 -1,492

Máximo 2,971 1,996

Amplitude 5,197 3,488

45

O teste t de student pareado é um procedimento estatístico que possibilita

testar os dois grupos de dados dos mesmos indivíduos, isto é, os dados antes e

depois da aplicação de um tratamento. Foi este o procedimento adotado para a

comparação da médias das habilidades dos examinandos antes e depois.

Os pressupostos para a realização do teste t-pareado são as seguintes:

• a distribuição das diferenças entre as habilidades dos indivíduos antes e depois

deve apresentar normalidade;

• os indivíduos a serem comparados devem ser os mesmos.

Na verificação do primeiro pressuposto foi realizado um teste de Shapiro-Wilk

para testar a normalidade das diferenças, o p-valor encontrado foi de 0,87, indicando

que a hipótese de normalidade não deve ser rejeitada. Verificada a normalidade,

prosseguimos à realização do teste e encontrou-se um p-valor de 0,06.

4.3.2 Grau de dificuldade

Neste tópico analisaram-se as diferenças entre os graus de dificuldade antes e

depois da instrução da disciplina, com o objetivo de verificar possíveis evoluções no

nível de dificuldade dos itens da prova.

Tabela 08 – Comparativo do grau de dificuldade

ITEM Antes Depois Situação Antes

Situação Depois

1 -0,719 -1,065 Fácil Fácil

2 0,817 0,272 Difícil Moderado 3 1,454 -1,606 Muito Difícil Muito Fácil 4 1,907 1,980 Muito Difícil Muito Difícil 5 -0,669 -1,144 Fácil Fácil 6 0,981 -1,092 Difícil Fácil 7 -0,543 -1,015 Fácil Fácil 8 1,026 0,621 Difícil Difícil 9 -0,885 -1,375 Fácil Fácil 10 3,699 1,427 Muito Difícil Muito Difícil 11 1,952 1,268 Muito Difícil Difícil 12 1,589 -0,274 Muito Difícil Moderada 13 1,502 0,463 Muito Difícil Moderada 14 -0,217 0,830 Moderada Difícil 15 -0,949 -1,113 Fácil Fácil 16 2,525 2,140 Muito Difícil Muito Difícil 17 3,156 1,558 Muito Difícil Muito Difícil 18 2,109 1,540 Muito Difícil Muito Difícil 19 1,868 2,451 Muito Difícil Muito Difícil 20 1,729 3,259 Muito Difícil Muito Difícil 21 0,749 -1,274 Difícil Fácil 22 1,303 -2,182 Difícil Muito Fácil

46

Tabela 08 – Comparativo do grau de dificuldade (continuação)

ITEM Antes Depois Situação Antes

Situação Depois

23 0,235 -2,392 Moderada Muito Fácil 24 2,670 1,833 Muito Difícil Muito Difícil 25 -0,685 -1,747 Fácil Muito Fácil 26 0,268 -0,485 Moderada Moderada 27 3,260 2,556 Muito Difícil Muito Difícil 28 0,469 -0,371 Moderada Moderada 29 3,273 1,363 Muito Difícil Difícil 30 1,818 0,015 Muito Difícil Moderada 31 1,651 -0,717 Muito Difícil Fácil 32 -0,083 -1,592 Moderada Muito Fácil 33 1,707 0,560 Muito Difícil Difícil 34 1,647 -0,354 Muito Difícil Moderada 35 1,397 0,594 Difícil Difícil 36 1,946 0,754 Muito Difícil Difícil 37 0,286 -1,306 Moderada Fácil 38 1,043 -0,476 Difícil Moderada 39 0,763 0,065 Difícil Moderada 40 0,509 -0,209 Difícil Moderada 41 0,994 -0,258 Difícil Moderada 42 2,408 2,287 Muito Difícil Muito Difícil 43 3,529 1,757 Muito Difícil Muito Difícil 44 1,197 -0,634 Difícil Fácil 45 4,732 1,418 Muito Difícil Muito Difícil 46 2,033 0,770 Muito Difícil Difícil 47 2,647 -0,272 Muito Difícil Moderada 48 2,086 0,895 Muito Difícil Difícil 49 0,888 -2,719 Difícil Muito Fácil 50 0,862 -2,242 Difícil Muito Fácil 51 1,776 -0,532 Muito Difícil Fácil

Fonte: os autores.

Para testar as diferenças entre os graus de dificuldade de cada item antes e depois

foi utilizado o teste não-paramétrico de Wilcoxon. Foram verificadas todas as

exigências do teste, que são:

• os pares são mutuamente independentes;

• as diferenças são variáveis contínuas;

• nível de mensuração em escala intervalar.

Para obter o p-valor referente a este teste deve-se comparar a estatística do

teste obtida com os valores tabelados da normal padrão. Neste caso, o valor da

estatística do teste encontrada foi de -5,59. Este valor nos remete a um p-valor muito

inferior a 0,001, o que significa que não aceitamos a hipótese nula, ou seja, existe

diferença significativa entre os índices de dificuldade dos itens antes e depois da

instrução da disciplina de CE-204 Cálculo de Probabilidades I.

47

Tabela 09 – Comparativo do grau de dificuldade agrupado (bi)

Antes Depois Grau de Dificuldade

Nº de Itens % de Itens Nº de Itens % de Itens

Muito Fácil 0 0% 7 14%

Fácil 6 12% 11 22%

Moderado 6 12% 12 24%

Difícil 13 25% 9 18%

Muito Difícil 26 51% 12 24%

Total 51 100% 51 100%

Fonte: os autores

Pela tabela 09 verifica-se que antes da instrução da disciplina 76% dos itens

possuíam um grau de dificuldade considerado difícil ou muito difícil. Após a instrução

observou-se uma redução de 24% neste percentual, isto é, dos 51 itens do teste, 39

estavam num patamar de dificuldade alto e após a instrução apenas 21 itens

permaneceram neste nível. Em conseqüência, a quantidade de itens considerados

fáceis ou muito fáceis apresentou um crescimento. Antes da instrução da disciplina

apenas 6 itens obtiveram essa classificação e após esse número foi de 18 itens.

Esta diferença foi detectada através do teste de Wilcoxon.

48

5 CONCLUSÃO

O presente trabalho diz respeito à avaliação do ensino dos conteúdos de

Contagem, Números Binomiais, Análise Combinatória e Probabilidade, constantes no

programa da disciplina CE204 – Cálculo de Probabilidades I da Universidade Federal

do Paraná. O objetivo é evidenciar a evolução destes alunos durante o semestre

letivo.

Este trabalho procurou apresentar uma análise de itens educacionais dentro da

Teoria Clássica da Avaliação e da Teoria da Resposta ao Item. Detalhamentos da

parte estatística foram feitos e procurou-se utilizar os procedimentos e as

metodologias já consagradas por estudiosos. Isto fica evidente com histogramas

presentes nas análises, pela descrição numérica dos dados e pela análise das Curvas

Características dos Itens, tanto na parte de interpretação de texto quanto na de

matemática.

A aplicação aos dados dos alunos da disciplina de CE204 – Cálculo de

Probabilidades é uma tentativa de contribuir para o esclarecimento das metodologias

de avaliação do ensino.

Concluiu-se que o ensino da disciplina citada foi bem assimilado pelos alunos

durante o aprendizado no semestre letivo e que o instrumento de avaliação utilizado

possui um bom índice de confiabilidade evidenciando a eficácia do método de ensino

proposto pelo professor. Houve uma melhora considerável nas habilidades dos alunos,

denotada também pela redução significativa nos níveis de dificuldade após a instrução

da disciplina.

Os resultados obtidos demonstram a importância de uma matéria que possibilte

um elo entre a matemática do ensino médio e do ensino superior.

Sugere-se apenas que sejam verificados os itens com baixos índices de

discriminação e com baixíssimo ou altíssimo índice de dificuldade, no sentido de

aprimorar a confiabilidade do teste.

É importante ressaltar que a Teoria de Reposta ao Item tem sido aplicada em

outras áreas, além da Educacional. Tais como na produção de indicadores sócio-

econômicos, na área de serviços e controle estatístico de qualidade, como se pode

comprovar por trabalhos de Dissertações de Mestrado desenvolvidos pelos

professores Anselmo Chaves Neto e Dalton F. Andrade.

49

6 CRONOGRAMA Este trabalho foi desenvolvido conforme cronograma abaixo: Figura 13 – Cronograma detalhado do Projeto

FASE MARÇO ABRIL MAIO JUNHO

Reunião Inicial

Definição do tema e orientador

Entrega de um projeto de pesquisa

Revisão de Literatura

Implementação da Metodologia

Aplicação da Metodologia

Apresentações Preliminares

Análise dos Resultados

Edição do Relatório

Apresentação oral do TCC

Correções no Relatório

Entrega da versão final do TCC

50

REFERÊNCIAS BIBLIOGRÁFICAS [1] ANDRADE, DALTON F. – Teoria da Resposta ao Item: Conceitos, Modelos e

Aplicações, Departamento de Informática e Estatística – UFSC, IME/USP – 2005

[2] ANDRADE, D. F.; TAVARES, H. R.; VALLE, R. C. Teoria da Resposta ao

Item:Conceitos e Aplicações. São Paulo: Associação Brasileira de Estatística,

2000.

[3] ANDRADE, D. F. Comparando desempenhos de grupos de alunos por

intermédio da Teoria da Resposta ao Item. Estudos em Avaliação

Educacional, São Paulo, n. 23, p. 31-69, 2001.

[4] CRONBACH, L.J. (1963) – Course improvement through evaluation. Teachers

College Record, 64. Columbia University.

[5] HAMMOND, D.L. (S.D.) - Evaluation at the local level; EPIC Evaluation Center,

Tuckson Arizona.

[6] MCNEMAR, Q. – Psychological Statistics, Ed. John Wiley & Sons, Inc., 4ª ed.,

1969.

[7] METFESSEL , N.S. E MICHAEL, W.B. - A paradigm involving multiple

critgerion measures for evaluation of effectiveness of school programs;

Educational and Psychological Measurement , 27, 1967.

[8] NETO, ANSELMO CHAVES E TURIM, MARIA ELISA – Introdução às Teorias

da Avaliação, Mini-curso no Departamento de Matemática, Centro de Ciências

Exatas e Tecnológicas – CET, Unicentro, Guarapuava- PR

[9] SANTOS, FABRÍCIA DAMANDO E GUEDES, LEONARDO GUERRA DE

REZENDE – Testes adaptativos informatizados baseados em teoria de

resposta ao item utilizados em ambientes virtuais de aprendizagem –

Universidade Federal de Goiás - 2003.

51

[10] TYLER, R.W. - General statement on evaluation; Journal of Educational

Research, n.35, 1942.

[11] VENDRAMINI, CLAUDETE MARIA MEDEIROS, SILVA, MARJORIE CRISTINA

DA E CANALE, MICHELLE – Análise de Itens de uma prova de Raciocínio

Estatístico – Universidade de São Francisco. Psicologia em Estudo – Maringá, set-

dez/2004.

[12] VIANA, H. M. - Introdução à Avaliação Educacional. Ed. Ibrasa Inst. Brasileira

de Difusão Cultural Ltda. S. Paulo- S.P., 1988.

[13] SOARES, TUFI MACHADO – Utilização da Teoria da Resposta ao Item na

Produção de Indicadores Sócio-Economicos – Centro de Avaliação Educacional.

Universidade Federal de Juiz de Fora, jan/2005.

52

ANEXOS

53

Anexo I – Instrumento de Avaliação

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS

DEPARTAMENTO DE ESTATÍSTICA TESTE DIAGNÓSTICO DE PROBABILIDADE ALUNO:.............................................................................................Curso de Estatística O objetivo deste teste é apenas de informar ao Professor de Cálculo de Probabilidades I os conhecimentos em Contagem, Números Binomiais, Análise Combinatória e Probabilidade, ao nível de 20. grau, trazidos pelos calouros em Estatística. Não se preocupe com nada. Responda calmamente e com responsabilidade as questões a seguir. Quem não quiser não precisa colocar o nome, mas quem desejar conhecer como está, deve escreve-lo. MARQUE A ÚNICA RESPOSTA CORRETA ENTRE AS ALTERNATIVAS. [01] Cinco pessoas estão sentadas em uma mesa redonda. De quantos modos diferentes as cinco pessoas podem se sentar nos cinco lugares.

a) 5

1

[ ] b) 5! [ X ] c) 125 [ ] d) 5 [ ] e) 10 [ ]

[02] O valor da combinação C 4

2 é:

a) 12 [ ] b) 8 [ ] c) 6 [ X ] d) 2 [ ] e) 10 [ ] [03] O valor da expressão x = 3! + C 5

3 é:

a) 6 [ ] b) 10 [ ] c) 12 [ ] d) 20 [ ] e) 16 [ X ] [04] O número de subconjuntos de um conjunto com 3 elementos é: a) 12 [ ] b) 8 [ X ] c) 9 [ ] d) 6 [ ] e) 3 [ ] [05] O número de arranjos tomados de 4 objetos de 2 em 2, ou seja, A 4

2 é:

a) 12 [ X ] b) 8 [ ] c) 9 [ ] d) 4 [ ] e) 3 [ ] [06] O valor da permutação de 0, por definição, é: a) 0 [ ] b) -∞ [ ] c) ∞ [ ] d) 1 [ X ] e) -1 [ ] [07] O número de anagramas da palavra AMOR é:

54

a) 12 [ ] b) 18 [ ] c) 4 [ ] d) 24 [ X ] e) 8 [ ] [08] O valor da expressão Y = 2.A 5

3 + C 53 é:

a) 120 [ ] b) 130 [ X ] c) 100 [ ] d) 124 [ ] e) 8 [ 150 ] [09] O número de modos que se pode formar uma roda com 5 crianças é: a) 120 [ X ] b) 5 [ ] c) 10 [ ] d) 100 [ ] e) 60 [ ] [10] O valor de C 0

3 é: a) 3 [ ] b) -3 [ ] c) 1 [ X ] d) 0 [ ] e) ∞ [ ] [11] O número de diagonais de um cubo é: a) 6 [ ] b) 8 [ ] c) 2 [ ] d) 4 [ X ] e) 3 [ ] [12] Dada a expressão Y = 5C 4

2 - A 42 + P2, onde C significa “combinação”, A significa

“arranjo” e P significa “permutação”, o valor de Y é: a) 6 [ ] b) 30 [ ] c) 12 [ ] d) 18 [ ] e) 20 [ X ] [13] O número de números com dois algarismos que é possível fazer com os cinco primeiros algarismos significativos, ou seja, de 1 a 5 é:

a) 10 [ ] b) 20 [ X ] c) 120 [ ] d) 5 [ ] e) 50 [ ] [14] O número de pares distintos de letras que é possível fazer com as vogais é:

a) 120 [ ] b) 5 [ ] c) 20 [ X ] d) 10 [ ] e) 5 [ ]

[15] Para fazer um passeio de final de semana de Curitiba à Paranaguá posso usar os seguintes meios de transporte: carro, trem (litorina) e táxi aéreo. Qual o número de modos de escolher os transportes, sabendo-se que não desejo usar na volta o mesmo meio de transporte.

a) 3 [ ] b) 4 [ ] c) 2 [ ] d) 6 [ X ] e) 1 [ ] [16] A nova bandeira de uma escola é formada por 5 listras que devem coloridas usando-se as cores: verde, amarela, azul e branca. Mas, as listas adjacentes não devem ter a mesma cor. Então, o número de modos de colorir a bandeira é:

a) 324 [ X ] b) 81 [ ] c) 64 [ ] d) 12 [ ] e) 20 [ ] [17] O número de modos de colocar oito torres iguais em um tabuleiro de xadrez (8x8) de maneira que não haja duas torres na mesma linha e nem na mesma coluna é:

a) 336 [ ] b) 40320 [ X ] c) 8 [ ] d) 20310 [ ] e) 10155 [ ]

55

[18] O número de números naturais de 4 algarismos, (na base 10), formados com os algarismos 2, 3, 4 e 5 e que são menores de 5000 e divisíveis por 5 é:

a) 16 [ ] b) 36 [ ] c) 8 [ ] d) 96 [ ] e) 48 [ X ]

[19] O valor da expressão 0

n

k

n

k=

∑ xk é:

a) xn [ ] b) (x + 1)n [ X ] c) (x – a)n [ ] d) 0

n

k

n

k=

∑ [ ] e) n! [ ]

[20] O valor da expressão 0

n

k

n

k=

∑ ak xn-k quando a = x = 1 é :

a) xn [ ] b) (2x + 1)n [ ] c) (x - a)n [ ] d) 2n [X ] e) a(n!) [ ] [21] O valor da soma S = 12 + 22 + 32 + ..... + n2 é:

a) 2

1

n

k

k=

∑ [ X ] b) ∞ [ ] c) 1

n

k

k=

∑ [ ] d) 2n [ ] e) 2nn [ ]

[22] Se p é a probabilidade que alguém tem de acertar uma aposta, então a probabilidade desse alguém não acertar é dada por; a) p2 [ ] b) 1 – 2p c) 50% [ ] d) 1 – p [ X ] e) p/2 [ ] [23] Na Teoria das Probabilidades define-se espaço amostral de um experimento como o conjunto formado por: a) todos os resultados favoráveis ao experimento [ ] b) todos os resultados desfavoráveis do experimento [ ] c) todos os resultados possíveis de acontecer no experimento [ X ] d) toda a amostra tomada da população [ ] e) todas as combinações necessárias para produzir a amostra [ ] [24] Dentro de uma gaveta tem dois pares de meias, um de azul e outro de preta. De noite apagou a luz e alguém, que está calçando os sapatos, vai retirar da gaveta um par de meias. Então, a chance que ele tem de sair calçado com dois pés de meia de mesma cor é: a) 1/3 [ X ] b) 1/4 [ ] c) 50% [ ] d) 8/9 [ ] e) 2/6 [ ] [25] Uma pessoa tem no bolso três notas de dinheiro. Uma de R$ 2,00, uma de R$1,00 e uma de R$ 5,00. Essa pessoa embarca no ônibus Ligeirinho cuja passagem custa R$ 1,70 e tira do bolso uma das notas para pagar a passagem. Então, a chance que ele tem de não retirar uma segunda nota é:

56

a) 1/3 [ ] b) 1/2 [ ] c) 2/3 [ X ] d) 3/4 [ ] e) 33,33% [ ]

[26] Retirando-se, ao acaso, uma carta de um baralho completo de 52 cartas, a probabilidade de sair um REI ou um ÁS é igual a: a) 7/52 [ ] b) 4/52 [ ] c) 8/13 [ ] d) 25% [ ] e) 2/13 [X ] [27] Retira-se, ao acaso e sem reposição, quatro cartas de um baralho completo de 52 cartas. A probabilidade de sair uma quadra (4 reis, 4 azes, 4 três, etc) é:

a) 13/52

4

[ X ] b) 4/52

4

[ ] c) 4/270720 [ ] d) 13/270720 [ ] e) 13/49 [ ]

[28] Em uma sacola existem 10 cartões com as letras A, M, O e R, sendo 4 letras A, 2 letras M, 2 letras O e 2 letras R. Uma pessoa retira ao acaso quatro cartões da seguinte forma: retira o cartão, olha a letra e repõe o cartão. Faz isto quatro vezes. Então, a chance dela conseguir formar a palavra AMOR é: a) 4/104 [ ] b) 32/104 [X ] c) 16/104 [ ] d) 2/104 [ ] e) 5/104 [ ] [29] No Conselho Setorial de Ciências Exatas existem, entre outros profissionais, 4 estatísticos e 6 matemáticos. O diretor do Setor escolheu ao acaso uma comissão composta por 5 membros entre estes 10 profissionais. Então, a chance da comissão ser composta por 3 matemáticos e 2 estatísticos é: a) 40% [ ] b) 5/42 [ ] c) 8/13 [ ] d) 10/21 [ X ] e) 2/13 [ ] [30] De uma caixa com 10 lâmpadas exatamente iguais, 6 estão boas. Retiram-se sucessivamente 3 lâmpadas. Então, a probabilidade de que todas acendam é:

a) 1/6 [ X ] b) 6/10 [ ] c) 3/10 [ ] d) 10/21 [ ] e) 2/3 [ ] [31] Na caixa do exercício anterior, com 10 lâmpadas exatamente iguais, 6 estão boas. Retiram-se sucessivamente 3 lâmpadas. Então, a probabilidade de que a primeira acenda é: a) 1/6 [ ] b) 3/5 [ X ] c) 1/2 [ ] d) 6/25 [ ] e) 1/4 [ ] [32] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que o casal festeje bodas de prata é:

a) 2/15 [ ] b) 2/5 [ ] c) 4/15 [ X ] d) 1/5 [ ] e) 4/5 [ ] [33] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que o homem fique viúvo antes das bodas de prata é:

a) 2/15 [ X ] b) 2/5 [ ] c) 4/15 [ ] d) 1/5 [ ] e) 4/5 [ ]

57

[34] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que a mulher fique viúva antes das bodas de prata é:

a) 2/15 [ ] b) 2/5 [ X ] c) 4/15 [ ] d) 1/5 [ ] e) 4/5 [ ] [35] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que o casal não esteja vivo é:

a) 2/15 [ ] b) 2/5 [ ] c) 4/15 [ ] d) 1/5 [ X ] e) 4/5 [ ] [36] A probabilidade de que um homem esteja vivo daqui a 25 anos é 2/5 e a de sua mulher é 2/3. Então, a probabilidade de que pelo menos um membro do casal esteja vivo é:

a) 2/15 [ ] b) 2/5 [ ] c) 4/15 [ ] d) 1/5 [ ] e) 4/5 [ X ] [37] Dois jogadores de xadrez jogaram 120 partidas, das quais F ganhou 60, K 40 e 20 terminaram empatadas. Agora, eles combinaram uma seqüência de 3 partidas no próximo mês. Então, a probabilidade de F ganhar a primeira é:

a) 1/3 [ ] b) 1/6 [ ] c) 4/15 [ ] d) 1/5 [ ] e) 1/2 [ X ] [38] Na questão anterior a probabilidade de K ganhar a segunda partida é:

a) 1/3 [ X ] b) 1/6 [ ] c) 4/15 [ ] d) 1/5 [ ] e) 1/2 [ ] [39] Na questão 38 a probabilidade de F ganhar as três partidas é:

a) 5/72 [ ] b) 5/36 [ ] c) 4/15 [ ] d) 1/8 [ X ] e) 1/27 [ ] [40] Na questão 38 a probabilidade de K ganhar as três partidas é:

a) 1/3 [ ] b) 1/8 [ ] c) 4/15 [ ] d) 1/64 [ ] e) 1/27 [ X ] [41] Na questão 38 a probabilidade de uma partida qualquer terminar empatada é:

a) 1/3 [ ] b) 1/6 [ X ] c) 1/4 [ ] d) 1/64 [ ] e) 1/27 [ ]

[42] Na questão 38 a probabilidade de duas partidas terminarem empatadas é:

a) 5/36 [ ] b) 1/6 [ ] c) 5/72 [ X ] d) 1/64 [ ] e) 1/27 [ ]

[43] Na questão 38 a probabilidade de F e K ganharem alternadamente é:

a) 5/36 [ X ] b) 1/6 [ ] c) 5/72 [ ] d) 1/64 [ ] e) 1/27 [ ]

[44] Sejam A e B eventos tais que P(A) = 0,2, P(B) = p e P(A∪B) = 0,6. O valor de p, quando A e B são mutuamente exclusivos, é:

58

a) 0,10 [ ] b) 0,2 [ ] c) 0,6 [ ] d) 0,4 [ X ] e) 0,5 [ ] [45] O valor de p, da questão anterior, quando A e B são eventos independentes é: a) 0,10 [ ] b) 0,2 [ ] c) 0,6 [ ] d) 0,4 [ ] e) 0,5 [ X ]

[46] Os eventos A e B são estocasticamente independentes quando: a) não podem ocorrer simultaneamente [ ] b) podem ocorrer simultaneamente [ ] c) a ocorrência de B não tem nada a ver com a ocorrência de A [ X ] d) a ocorrência de B tem muito a ver com a ocorrência de A [ ] e) A ocorrência de A e B é completamente aleatória [ ] [47] Os eventos A e B são mutuamente exclusivos quando: a) não podem ocorrer simultaneamente [ X ] b) podem ocorrer simultaneamente [ ] c) a ocorrência de B não tem nada a ver com a ocorrência de A [ ] d) a ocorrência de B tem muito a ver com a ocorrência de A [ ] e) A ocorrência de A e B é completamente aleatória [ ] [48] De acordo com a definição clássica de probabilidade tem-se que a probabilidade do evento A ocorrer, A ⊆ Ω, é dada: a) pelo número de casos possíveis [ ] b) pelo número de casos favoráveis [ ] c) pela certeza menos o número de casos não favoráveis [ ] d) pelo quociente entre o número de casos favoráveis e o número de casos possíveis [X ] e) P(A) = 1 – P(Ac) [ ] [49] Se P(A) = p é a probabilidade de ocorrência do evento A, então a probabilidade do evento A não ocorrer é:

a) 2p [ ] b) p/2 [ ] c) 1 – p [X] d) 1 – p/2 [ ] e) ½ [ ] [50] Se P(A) = p é a probabilidade de ocorrência do evento A, então a probabilidade do evento A não ocorrer é dada pela probabilidade de ocorrência do evento:

a) disjunto de A [ ] b) vazio [ ] c) dependente de [ ] d) não dependente de A [ ] e) complementar de A [X]

59

[51] Quando dois eventos A e B são mutuamente exclusivos, a probabilidade da ocorrência de A ou de B é dada por:

a) P(A).P(B) [ ] b) P(A) + P(B) [X] c) P(A)/P(B) [ ] d) 1 – P(A).P(B) [ .] e) 1 [ ]

60

Anexo II – Curvas Características de todos os Itens

61

Anexo III - Quadro de Probabilidades

62

Anexo IV - Tabela das Habilidades

ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM · PDF fileanÁlise de itens e da...

Documents

Transcript of ANÁLISE DE ITENS E DA CONFIABILIDADE DE UM · PDF fileanÁlise de itens e da...