Download PDF
ads:
EVASÃO NO ENSINO SUPERIOR: UM ESTUDO UTILIZANDO A MINERAÇÃO DE
DADOS COMO FERRAMENTA DE GESTÃO DO CONHECIMENTO EM UM BANCO DE
DADOS REFERENTE À GRADUAÇÃO DE ENGENHARIA.
Solange Lima de Souza
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS
PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE
FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS
PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA CIVIL.
Aprovada por:
____________________________________________________
Prof. Nelson Francisco Favilla Ebecken, D.Sc.
____________________________________________________
Prof. Geraldo Martins Tavares, D.Sc.
____________________________________________________
Profª. Beatriz de Souza Leite Pires de Lima, D.Sc.
RIO DE JANEIRO, RJ - BRASIL
JULHO DE 2008
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ii
SOUZA, SOLANGE LIMA DE
Evasão no ensino superior: um estudo utilizando
a mineração de dados como ferramenta de gestão
do conhecimento em um banco de dados referente à
graduação de engenharia. [Rio de Janeiro] 2008
VII, 107 p. 29,7 cm (COPPE/UFRJ, M.Sc.,
Engenharia Civil, 2008)
Dissertação – Universidade Federal do Rio de
Janeiro, COPPE
1. Mineração de dados
2. Gestão do conhecimento
3. Educação
4. Evasão
5. Engenharia
I. COPPE/UFRJ. II. Título (série).
ads:
iii
A Carmelita, que deu à luz Marlene, que deu à luz
Solange.
Eu te amo, Vó. Um dia nos reencontraremos.
iv
Agradecimentos
Aos meus filhos e cada membro da minha família, por tanto amor.
Aos meus amigos do peito, pelo aconchego, força e fé.
Aos GRANDES Nelsons, que são parte deste sonho e sempre estarão nas
minhas orações:
- Dr. Nelson Zisman, médico da minha vida, fraterno como um amigo de infância;
um presente de Deus
- Prof. Nelsom Magalhães, que me direcionou ao ser humano e à gestão do
conhecimento. Você tinha razão, Mestre: “todos os sonhos são corretos” (e possíveis).
- Querido Prof. Dr. Nelson Ebecken, pela felicidade intensa que me proporcionou
ao aceitar ser meu Orientador, materializando o que antes era só acalentado. Professor,
pelo seu desprendimento, sua presença e sua parceria verdadeira, muito obrigada.
Você é especialmente único!
Ao Prof. Dr. Marcos Cavalcanti, o primeiro a me abrir as portas da Coppe, pela
confiança depositada na minha confiança!
Ao Prof. Dr. Jadilson Santos, da Coordenação de Educação da UFRJ, por tão
sábias recomendações.
Ao Reinaldo Duarte, pelo incentivo ao meu desenvolvimento, pelo crédito e o
apoio na viabilização deste mestrado. Valeu Chefe!
Ao Mestrando e Analista de Banco de Dados, Júlio César Chaves, meu Amigo,
sem o qual eu não teria chegado aqui, de verdade.
Ao Jayme Teixeira Filho, em memória, por ter descortinado pra mim o mundo
maravilhoso da era do conhecimento, enquanto pôde fazê-lo.
Ao amigo Henrique Oswaldo Uzêda Pereira de Souza, do NTI da UFF, pela
atenção prestimosa, pelo carinho e tanta paciência.
Ao consultor Robson Santos, colega de trabalho que se transformou em amigo
de fé, pela ajuda certa, na hora certa.
À querida Aparecida Laino, pela contribuição a este trabalho, muito mais pela
amizade que compreende, anima e edifica.
Ao Mestre Jorge Luis de Oliveira Borges por ter iniciado esta caminhada junto
comigo.
E finalmente, porém em absoluto primeiro lugar, agradeço a Jeová, Deus dos
hebreus, Aquele que me ilumina e me retorna ao remanso, em cada corredeira do
caminho. Obrigada, Pai, em nome de Jesus Cristo. Amém.
v
Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos
necessários para a obtenção do grau de Mestre em Ciências (M.Sc.).
EVASÃO NO ENSINO SUPERIOR: UM ESTUDO UTILIZANDO A MINERAÇÃO DE
DADOS COMO FERRAMENTA DE GESTÃO DO CONHECIMENTO EM UM BANCO
DE DADOS REFERENTE À GRADUAÇÃO DE ENGENHARIA.
Solange Lima de Souza
Julho/2008
Orientador: Nelson Francisco Favilla Ebecken
Programa: Engenharia Civil
Trabalho experimental que objetiva gerar conhecimento a partir da investigação
da evolução dos alunos compostos em uma base de dados da graduação de
engenharia. Pretende demonstrar um padrão descritivo dos casos que levam ao
abandono do curso, através da utilização das técnicas de mineração de dados. Foram
criadas regras de classificação, através de árvores de decisão, e regras de associação.
Algumas considerações acerca da educação nesta nova economia do conhecimento
também foram trazidas, visando contribuir para a mudança do comportamento
constatado. Os resultados do trabalho mostraram uma série de disciplinas que
conduzem à reprovação, indicando a necessidade de se rever o currículo dos cursos ou
a abordagem das disciplinas.
vi
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Master of Science (M.Sc.).
STUDENT EVASION AT THE UNIVERSITY LEVEL: A STUDY USING DATA MINING
AS A TOOL FOR KNOWLEDGE-BASED MANAGEMENT IN A DATA BASE OF
UNDERGRADUATE ENGINEERING PROGRAMS.
Solange Lima de Souza
July/2008
Advisor: Nelson Francisco Favilla Ebecken
Department: Civil Engineering
This experimental work has as objective to find out knowledge through the use of
data mining techniques. It inquiries the student’s evolution composed in a database of
engineering graduation. The purpose is to demonstrate a descriptive standard of the
cases that lead to the abandonment of the course. It had been created Classification
Rules, through Decision Trees, and Association Rules. Some questions concerning the
education in this new knowledge based-economy had been also brought. The results of
the work had suggested that some modifications must be introduced to produce an
increase in academic efficiency.
vii
ÍNDICE DE TEXTO
1 INTRODUÇÃO ................................................................................................... 1
1.1 JUSTIFICATIVA DO TEMA E MOTIVAÇÃO ....................................................... 2
1.2 OBJETIVOS E DELIMITAÇÃO ........................................................................... 3
1.3 MÉTODOS E FERRAMENTAS .......................................................................... 4
1.4 APRESENTAÇÃO DO TRABALHO .................................................................... 5
2 MASSA DE DADOS .......................................................................................... 7
2.1 COMPOSIÇÃO DA BASE DE DADOS ............................................................. 12
2.2 SISTEMATIZAÇÃO DO PROCESSO ............................................................... 13
2.3 PREPARAÇÃO DA BASE ................................................................................. 18
2.3.1 Organização e pré-processamento ............................................................... 19
2.4 DADOS A SEREM MINERADOS ..................................................................... 27
3 MINERAÇÃO DE DADOS ............................................................................... 32
3.1 TÉCNICAS UTILIZADAS .................................................................................. 39
3.2 COMPONENTE ORACLE DATA MINER.......................................................... 42
4 REGRAS DE ASSOCIAÇÃO .......................................................................... 47
4.1 CONSTRUÇÃO ................................................................................................. 47
5 CLASSIFICAÇÃO ............................................................................................ 59
5.1 CONSTRUÇÃO ................................................................................................. 59
6 DESCOBERTA DO CONHECIMENTO ........................................................... 83
7 CONCLUSÕES ................................................................................................ 86
REFERÊNCIAS ........................................................................................................... 92
ANEXO A - ESQUEMA ACADÊMICO DO CURSO GRADUAÇÃO DE
ENGENHARIA DA UFF – CHAVES DAS TABELAS ................................................... 93
ANEXO B - CONSTRUÇÃO DO BANCO DE DADOS EM ORACLE ........................ 102
ANEXO C - EVOLUÇÃO DAS BASES DE DADOS .................................................. 104
ANEXO D RELAÇÃO DAS DISCIPLINAS DA BASE DE DADOS FINAL .............. 107
1
1 INTRODUÇÃO
“Entrar para a faculdade”. Esta é a resposta que se obtém da maioria dos
jovens de ensino médio quando se pergunta pelo seu sonho de vida. Desde a
formulação desse desejo observa-se um equívoco no pensamento dos jovens, que
talvez não seja apenas um caso de semântica. Pode ser que eles não avaliem de fato
a diferença entre as ações de “entrar” significando passar no vestibular, e “cursar”
significando permanecer até se formar. Esta segunda hipótese importa em se analisar
previamente os percalços que um curso de graduação oferece.
Tais percalços podem ir desde um impedimento ou dificuldade séria, à falta de
motivação ligada à própria realização do curso ou ao contexto sócio-individual ou do
ambiente. Com relação à realização do curso, as queixas se prendem na rigidez
curricular, ou seja, nas disciplinas em si: quantidade, carga horária e principalmente na
dificuldade de entendimento que se traduz em resultados negativos de avaliação.
Dos diversos problemas de ordem pessoal e social, que podem alterar a
decisão do aluno, podemos citar: a) falta de condição financeira para se manter no
curso; b) incompatibilidade de horários versus a necessidade de sustento próprio ou
da família; c) escolha pela graduação feita sem a análise adequada do que ela
representa como atividade profissional ou no mercado de trabalho.
A escolha da graduação está diretamente ligada à escolha da profissão: a que
se sonha ou a que se considera acessível (tem de se dar atenção especial ao fato de
estarmos em um país onde 5 milhões de pessoas participam de concursos públicos,
anualmente). Através da vivência acadêmica e do acompanhamento dos fatos, o
ímpeto e a paixão com as quais se inicia a graduação, via de regra, se esmorecem ao
longo dos períodos. Muitos esforços para nem tantos vislumbres, ou seja, o curso
pode não ser tanto quanto se esperava, ou, a profissão de ouro começa a mostrar
seus pés de barro... E aí é hora de repensar e, muito vezes, de desistir.
O principal problema atrelado a esta dissertação é a evasão no ensino
superior. Conforme publicado na edição 3421 do Jornal da Ciência, a evasão hoje nas
Instituições Federais de Ensino Superior corresponde a 40%, enquanto a média da
OCDE (Organização para a Cooperação e Desenvolvimento Econômico) é de 30%, de
acordo com o INEP
1
. Cumpre registrar que existem controvérsias sobre a admissão
1
Os dados oficiais do INEP (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio
Teixeira, ligado ao Ministério da Educação) demonstram um crescimento permanente das
matrículas de graduação nas Instituições Federais de Ensino Superior (2001: 502.960, 2002:
531.634, 2003: 567.850, 2004: 574.584, 2005: 579.587 e 2006: 589.821).
2
da taxa de 40% como correspondente à saída efetiva dos alunos do sistema
universitário.
A partir dos números da pesquisa feita no Brasil pelo INEP, podemos dizer que
cerca de 40% dos nossos alunos da rede pública de ensino superior estão
abandonando os cursos. O problema resulta no desperdício de dinheiro público (nosso
dinheiro), na não assimilação do conhecimento necessário às ciências e aos ofícios
(nosso desenvolvimento), na abdicação de uma conquista individual (nossa auto-
estima). Trata-se de um problema de repercussão difícil de ser medida. Entretanto, o
histórico escolar dos alunos está gravado nos bancos de dados das universidades,
além de outros dados inerentes aos alunos, aos currículos, às disciplinas etc.
Podemos encontrar um padrão de comportamento na vida acadêmica contida nessas
bases de dados, que possa ajudar a explicar o fenômeno da evasão e,
consequentemente, contribuir na busca de soluções para o problema?
1.1 JUSTIFICATIVA DO TEMA E MOTIVAÇÃO
O tema “evasão no ambiente educacional” vem sendo objeto de vários estudos
e pesquisas.
Por um lado, o desperdício das condições físicas criadas para atendimento de
um número expressivo de alunos e o não aproveitamento do tempo dedicado dos
docentes e empenho dos profissionais de ensino. Por outro lado, o meio produtivo
desfalcado de profissionais graduados e competentes para agir e inovar.
O Governo Federal, através da Subchefia para Assuntos Jurídicos da Casa
Civil, sancionou o Decreto nº. 6.096, em 24 de abril de 2007. O decreto institui o
“Programa de Apoio a Planos de Reestruturação e Expansão das Universidades
Federais” - REUNI.
DECRETA: Art. 1
o
Fica instituído o Programa de Apoio a Planos de
Reestruturação e Expansão das Universidades Federais - REUNI,
com o objetivo de criar condições para a ampliação do acesso e
permanência na educação superior, no nível de graduação, pelo
melhor aproveitamento da estrutura física e de recursos humanos
existentes nas universidades federais.
§ 1
o
O Programa tem como meta global a elevação gradual da taxa
de conclusão média dos cursos de graduação presenciais para
noventa por cento e da relação de alunos de graduação em cursos
presenciais por professor para dezoito, ao final de cinco anos, a
contar do início de cada plano.
3
Sem pretender analisar o mérito das metas propostas pelo Reuni, o decreto expressa
a preocupação com o ensino superior no país, principalmente com relação ao acesso
à universidade e à conclusão dos cursos de graduação. Ainda que os critérios e os
fundamentos teórico-metodológicos e empíricos que inspiraram o decreto sejam
controversos, é inegável que a lei oficialmente abriu o leque de discussões e
deslanchou numa rede de pronunciamentos. Ocorreram manifestações em todo o
país, mobilizações estudantis, docentes, de técnico-administrativos, lembrando, entre
outras coisas, a prioridade da qualidade sobre a quantidade.
A responsabilidade intrínseca ao tema está na afirmação de que o problema da
evasão na graduação não se restringe somente ao meio acadêmico (nem a causa,
nem o efeito). O problema circula em todos os meios.
Além da questão trazida pelo binômio empresa-escola, estamos vivendo a
transformação do paradigma: o meio acadêmico é para reflexão e o meio produtivo é
para a ação. Nos dias de hoje, a reflexão e a ação devem acontecer nos dois mundos.
Aliás, só existe um mundo: de nada adianta a reflexão que não se converte em
conhecimento. Conhecimento que possa ser aplicado a favor da vida. Estamos
ingressando em uma nova economia, uma nova sociedade. Outros aspectos se
inserem nesse mundo acadêmico-produtivo: o individual, o social, o ambiental. Neste
novo contexto onde todas as questões se conectam, pesquisar o abandono da escola
adquire uma relevância tão expressiva quanto a necessidade de se revisitar a questão
educacional, sempre. A educação é a única saída para o impasse capitalista em que
vivemos. (TEIXEIRA, 2000)
Portanto, o tema “evasão no ensino superior“ faz gerar motivação, por si
mesmo. Ademais, o trabalho está sendo conduzindo por uma profissional em
educação empresarial, trabalhadora em Recursos Humanos com ênfase em Gestão
de Competências. Uma estudiosa em Gestão do Conhecimento, de fato, que no seu
dia-a-dia vivencia a necessidade de valorização do ser humano como a verdadeira
fonte de riqueza de uma organização e da sociedade como um todo.
Assim, a importância do tema amplifica a responsabilidade pelo
desenvolvimento do trabalho. Em contrapartida, produz emoção positiva a cada
resultado ou conquista, ainda que aparentemente simples.
1.2 OBJETIVOS E DELIMITAÇÃO
4
O objetivo principal deste trabalho é auxiliar na busca de razões para a evasão
no ensino superior através da utilização de técnicas de mineração de dados. A evasão
no sistema escolar é um problema de ordem nacional, como visto no capítulo anterior.
São imprescindíveis, portanto, todos os esforços feitos no sentido de minimizar o
problema. Por isso, a contribuição nesse sentido é o objetivo principal deste trabalho.
Na dissertação abordamos os conceitos de mineração de dados e técnicas
respectivas. Trabalhamos com o banco de dados fornecido pela Universidade Federal
Fluminense – UFF, tendo em vista o interesse da instituição pelo tema da pesquisa.
Assim, o estudo de caso deste trabalho está limitado ao espaço amostral da UFF. A
massa de dados cedida corresponde aos anos de 1954 a 2005 e somente à
graduação de Engenharia. A abrangência teve de ser reduzida ao período de 11 anos,
de 1995 a 2005, devido a dados faltantes e imprecisos relativos aos anos iniciais. Na
base de dados em questão não constam os dados de nível socioeconômico, portanto
só realizamos comparações de dados referentes à vida escolar dos alunos.
1.3 MÉTODOS E FERRAMENTAS
Para auxiliar na busca de entendimento sobre a evasão do ensino superior,
dada a relevância do problema, optamos por utilizar as técnicas de mineração de
dados, mais precisamente as Regras de Associação e a Classificação. As técnicas
são aplicadas com o objetivo de encontrar regras passíveis de teste e aplicação, numa
analise de “dados sobre dados”.
A Classificação Supervisionada é o tipo escolhido para a busca de regras, uma
vez que as classes já estão identificadas através do sistema de codificação da base de
dados.
Como fundamentação teórica para a mineração de dados, utilizamos como
base a literatura de Han, Jiawei e Kamber Micheline, seguindo-se outros autores de
Data Mining, devidamente referenciados neste trabalho.
Com base nos autores citados, a seguinte metodologia está sendo adotada na
pesquisa (HAN; KAMBER, 2001):
1ª – Limpeza dos dados;
2ª – Consolidação;
3ª – Seleção;
4ª – Transformação;
5
5ª – Mineração;
6ª – Avaliação de regras e padrões;
7ª – Apresentação do conhecimento descoberto.
A análise está presente durante todas as etapas da metodologia e na
passagem de uma etapa para a outra, podendo-se considerar a metodologia como um
processo contínuo de análise.
O banco de dados foi organizado em ambiente ORACLE e optou-se por utilizar
a ferramenta ORACLE Data Miner (ODM) como motor de mineração. Tal decisão pode
ser considerada como um desafio, uma vez que não se encontrou registros da
utilização da ferramenta ODM em pesquisas cientificas até o momento.
Em síntese, utilizando técnicas de mineração, acreditamos que os dados
contidos nas grandes bases das universidades podem revelar padrões de
comportamento e auxiliar na construção de modelos descritivos.
1.4 APRESENTAÇÃO DO TRABALHO
Este trabalho disserta sobre o problema da evasão no ensino superior nas
instituições públicas, visando contribuir na busca de soluções através da aplicação das
técnicas de mineração de dados em uma base de dados amostral. Neste primeiro
capítulo, no qual fazemos a introdução da dissertação, é apresentada a situação-
problema e os objetivos do trabalho são clarificados. A pesquisa se justifica através do
alto índice de alunos graduandos que se evadem do sistema, sendo citada a
preocupação do governo federal expressa através do REUNI “Programa de Apoio a
Planos de Reestruturação e Expansão das Universidades Federais”. Além da
importância do tema no cenário de desenvolvimento do país - principalmente nesta
nova sociedade do conhecimento - uma forte motivação para a pesquisa vem do fato
da autora atuar em educação empresarial e constatar o quanto o meio produtivo é
fortemente impactado pelo problema. No que concerne à delimitação da pesquisa, é
estabelecido que se trata de um levantamento analítico de dados brutos sobre a vida
acadêmica dos graduandos compostos na base de dados disponibilizada pela
Universidade Federal Fluminense – UFF.
O Capítulo 2 fala sobre a massa de dados disponibilizada pela UFF, sobre a
etapa inicial de entendimento da base e sobre o processo alvo de estudo: preparação
da base de dados para possibilitar as análises decorrentes. O modo operante do
6
sistema acadêmico da UFF e a sistematização do processo são demonstrados na
forma de tabelas e quadros. As etapas seguintes de pré-processamento (limpeza e
organização dos dados) são trazidas, visando demonstrar a categorização de variáveis
e a criação de classes, enfim, as etapas de transformação até chegarmos aos dados
considerados relevantes para a pesquisa: os dados a serem minerados.
O Capítulo 3 disserta sobre a Mineração de Dados - um pouco do histórico e
aspectos conceituais - e sua origem dentro do processo maior de KDD (Knowledge
Discovery on Databases). São vistas as definições de Data Warehouse, Data Mart e
também as etapas de um processo de mineração de dados, as técnicas de Regras de
Associação e Classificação a partir da criação de Árvores de Decisão. A apresentação
do ORACLE Data Miner – ODM, como componente a ser utilizado para mineração,
também consta desse capítulo.
O Capítulo 4 descreve a técnica de Regras de Associação e exibe as regras
construídas com os devidos comentários. O Capítulo 5 segue a mesma linha do
capítulo anterior, demonstrando a técnica de Classificação, as regras construídas e os
comentários sobre elas. Em ambos os capítulos é colocado um passo-a-passo para a
construção das regras através do ODM.
O Capítulo 6 registra o conhecimento descoberto através das técnicas de
mineração de dados aplicadas. O resultado das análises das regras de associação e
de classificação construídas é contraposto à situação-problema apresentada na
dissertação.
O Capítulo 7 traz as conclusões do trabalho: uma síntese do aprendizado que
se buscou na elaboração da dissertação. São lembrados o caminho percorrido e suas
principais dificuldades, mostrando a evolução do trabalho até o que se supõe ser uma
resposta ao problema apresentado: a descoberta do conhecimento contido no banco
de dados estudado e sua contextualização. O capítulo se encerra com sugestões para
futuras pesquisas e com ponderações sobre a consecução do presente trabalho.
7
2 MASSA DE DADOS
O banco de dados utilizado nesta pesquisa foi fornecido pela Universidade
Federal Fluminense (UFF).
A UFF é uma instituição criada em 18/12/1960 que comporta 26 unidades de
ensino (12 Institutos, 9 Faculdades e 5 Escolas), amparados por 84 departamentos de
ensino e 2 colégios agrícolas. Seguem alguns dados da UFF obtidos na página oficial
da instituição em 06/06/2008 (Figura 2.1).
Alunos Matriculados
Nível/Tipo Ano Quantidade Fonte(s)
Colégio Agrícola Nilo Peçanha
2006 312 CANP
Colégio Técnico Agrícola Ildefonso Bastos Borges
2006 297 CTAIBB
Graduação
2006 23.697 PingIfes
Ensino a Distância
2005 1.544 NEAMI
Pós-Graduação - Mestrado Profissional
2006 260 PingIfes
Pós-Graduação Stricto sensu - Mestrado
2006 2.139 PingIfes
Pós-Graduação Stricto sensu - Doutorado
2006 1.046 PingIfes
Residência Médica
2006 124 COREME
Alunos Concluintes
Nível Ano Fonte(s)
Colégio Agrícola Nilo Peçanha
2006 175 CANP
Colégio Técnico Agrícola Ildefonso Bastos Borges
2006 262
Graduação
2006 2881 DAE
Ensino a Distância
2005 13
Pós-Graduação - Mestrado Profissional
2006 107
PROPP
Pós-Graduação Stricto sensu - Mestrado
2006 629
Pós-Graduação Stricto sensu - Doutorado
2006 121
Residência Médica
2006 47 COREME
Produção Científica
Produto Ano Quantidade Fonte
Livros Publicados
2006
183
RADOCs
Artigos em Periódicos Internacionais
745
Artigos em Periódicos Nacionais
871
Teses de Doutorado Orientadas
39
Teses de Mestrado Orientadas
163
Trabalhos Apresentados em Cong. Científicos
2193
Trabalhos Publicados em Cong. Científicos
1298
Figura 2.1: Dados sobre a UFF
Fonte: UFF
8
A UFF disponibilizou para a Universidade Federal do Rio de Janeiro (UFRJ) um
conjunto de dados referentes à graduação de Engenharia, com data de atualização
correspondente ao 2º semestre de 2005.
O conjunto de dados disponibilizado foi o seguinte:
- explicação sobre as tabelas do esquema acadêmico UFF;
- chaves das tabelas;
- estrutura das tabelas;
- massa de dados: 55 arquivos em modo texto, sendo cada um correspondente
a uma tabela.
A descrição das tabelas, mantendo a forma original recebida da UFF, está
colocada no Quadro 2.1.
Quadro 2.1: Tabelas do esquema acadêmico da UFF
ACOMPANHAMENTO – armazena dados resumidos sobre a situação dos alunos em cada
período cursado, durante sua vida acadêmica.
ACOMPANHAMENTODESDOBRAMENTO – armazena dados sobre a habilitação do curso ao
qual o aluno está ligado em cada semestre, identificando, também, as alterações destas
habilitações.
BOLSA – armazena dados sobre o tipo de bolsas concedidas a alunos de graduação. Tabela
nova para o sistema, não tendo seus dados atualizados para os alunos.
CIDADES – armazena código e descrição das cidades, vinculados aos respectivos estados.
COR – armazena códigos referentes à cor dos alunos. Tabela nova para o sistema, retirada
dos arquivos do IBGE.
COREQUISITOS – armazena a associação entre disciplinas e seus co-requisitos (disciplinas
que devem ser cumpridas ao mesmo tempo da principal).
CURRICULOMINIMO – armazena dados de integralização curriculares e legislativos,
referentes aos cursos da UFF.
CURRICULOPLENO – armazena dados gerais sobre os currículos dos cursos de graduação
da UFF, como, referencias legislativas, turno, duração nº de créditos por período, ano e
semestre em que passou a vigorar e status, entre outros.
CURSO – tabela que armazena dados sobre os cursos de graduação da UFF, com respectivas
habilitações ou desdobramentos. O código de desdobramento = 99 valida o nome do curso.
CURSOHISTORICO – armazena dados do histórico das atualizações ocorridas nos cursos /
habilitações de graduação da UFF.
DADOSALUNO – armazena dados pessoais, de endereço e de documentos, dos alunos de
graduação da UFF. Possui o atributo CODINTERNO para efetuar a associação com a tabela
MATRICULAALUNO.
9
DATACONCLUSAO – armazena as datas de conclusão dos cursos da UFF, por semestre e
ano. Tais datas são impressas no histórico escolar dos alunos.
DECRETOS – armazena as datas de vigência dos decretos de validação ou reconhecimento
dos cursos / habilitações de graduação da UFF.
DELECAOALUNO – armazena códigos e respectivas descrições, do vínculo do aluno com a
UFF. A ocorrência 00 indica que o aluno está ativo, ou seja, cursando o semestre corrente. As
demais situações indicam o final do vínculo com a universidade (por formatura, por
transferência ou por cancelamento de matrícula).
DELECAOMOTIVO – tabela que armazena e agrupa os atributos CODDELECAO, em motivos
específicos, a saber: ATIVO, FORMADO, CANCELADO, e DESATIVADO.
DESBOBRAMENTOALUNO – armazena para cada aluno matriculado, dentro de um curso /
habilitação, o currículo vigente em que o aluno está vinculado,
DIARIO – armazena as disciplinas / turmas com os respectivos alunos, dentro de um semestre
e mês específicos, com informações sobre a situação do aluno nas disciplinas / turmas.
.
DIASEMANA – armazena os dias da semana que podem ser utilizados quando da confecção
do quadro de horários das disciplinas oferecidas no semestre.
DISCIPLINA – armazena informações sobre as disciplinas (ativas e desativadas) existentes no
cadastro da UFF, e oferecidas para os cursos de graduação ao longo do tempo.
EMENTADISCIPLINA – armazena a ementa das disciplinas oferecidas aos cursos de
graduação da UFF.
ENTIDADES – armazena o código e descrição das entidades que fornecem bolsas aos alunos
de graduação da UFF. Tabela nova para o sistema, não tendo seus dados atualizados para os
alunos.
EQUIVALENCIAS – armazena a equivalência entre disciplinas de currículos diferentes, para os
casos de equivalência 1 para 1, e equivalência 1 para n.
EQUIVALENCIASVINC – armazena a equivalência entre disciplinas de currículos diferentes,
para os casos de equivalência n para 1, e equivalência n para n.
ESTADOCIVIL – armazena o código e a descrição dos tipos de estado civil permitidos.
ESTADOS – armazena os códigos, siglas e descrições das unidades federativas da união.
Atualmente possui carga apenas de 5 estados.
FORMAINGALUNO – armazena os códigos e descrições das formas de ingresso possíveis aos
alunos de graduação da UFF.
GRAU – tabela que armazena os códigos e descrições dos graus acadêmicos da UFF.
Atualmente é utilizado apenas o grau 1, referente aos cursos de graduação.
HISTORICO – tabela que armazena notas e freqüências dos alunos de graduação ao longo de
sua vida acadêmica.
HORARIO – armazena os horários possíveis para o cadastro das turmas oferecidas aos cursos
de graduação da UFF.
INDICETURNO – armazena códigos que identificam se o turno refere-se ao aluno, ao currículo,
ou ao código do curso junto ao INEP.
INGFORMAINGRESSO – armazena a associação entre os códigos de ingresso dos alunos
com suas respectivas formas de ingresso.
10
INGRESSO – armazena os códigos e descrições dos ingressos permitidos para os alunos de
graduação da UFF, sendo representado na composição da matrícula dos alunos.
LOCALIDADE – armazena os códigos e descrições das cidades onde a UFF possui cursos de
graduação.
LOCALIDADECURSO – armazena a ligação entre os cursos de graduação com as
localidades, além de cadastrar outros dados sobre o curso como: códigos do curso junto ao
INEP (para alunos e docentes), códigos referente ao centro de custo dos cursos, códigos de
carreira dos cursos (referente ao vestibular), entre outros.
MATERIAS – armazena código e descrição das matérias que servem de base à criação das
disciplinas de graduação oferecidas aos cursos de graduação da UFF.
MATERIASMINIMO – armazena o código das matérias que integram o currículo mínimo de
determinado curso / habilitação.
MATRICULAALUNO – armazena dados referentes à matrícula do aluno na universidade,
tendo associação com a tabela DADOSALUNO, através do atributo CODINTERNO.
MOTIVOCURSO – armazena código e descrição dos motivos que ocasionaram mudanças em
um determinado curso de graduação.
MOTIVODESAT – armazena códigos e descrições dos motivos que envolvem as alterações de
disciplinas de graduação da UFF, do cadastro de disciplinas.
NOTASVESTIBULAR – armazena as notas de vestibular dos alunos de graduação da UF, bem
como número de pontos no vestibular, código das etapas das provas, tipos de prova e língua
estrangeira.
PAIS – armazena código e descrição dos países utilizados no cadastro dos alunos de
graduação da UFF.
PERIODIZACAO – armazena código das disciplinas de determinado currículo de curso de
graduação da UFF, distribuindo-as pelos períodos curriculares previstos por cada curso.
Identifica, também, as disciplinas optativas (não ligadas aos períodos curriculares).
PREREQUISITOS – armazena a associação entre as disciplinas de determinado currículo de
curso / habilitação, com sua (s) respectiva (s) disciplina (s) pré-requisito.
QUADRODEDOCENTES – armazena os dados referentes aos docentes alocados em
determinada disciplina / turma, dentro de um semestre / ano.
QUADRODEHORARIOS - armazena os dados referentes aos horários oferecidos para
determinada disciplina / turma, dentro de um semestre / ano, para os cursos de graduação da
UFF.
QUADRODEDISCIPLINAS - armazena os dados referentes ao movimento de vagas oferecidas
e preenchidas de determinada disciplina / turma, dentro de um semestre / ano, para os cursos
de graduação da UFF. Tem o objetivo de produzir informações estatísticas.
QUADRODEVAGAS – armazena os dados referentes à distribuição das vagas oferecidas aos
cursos de graduação da UFF, dentro de um semestre / ano.
RESUMOCURRPLENO – armazena dados resumidos de um determinado currículo de curso /
habilitação, com totais de créditos e horas por tipos de disciplina.
SITUACAOALUNO – tabela que armazena o código e descrição das situações permitidas aos
alunos dentro do semestre atual.
11
SITUACAODISCIPLINA – armazena códigos e respectivas descrições das situações
permitidas para determinada disciplina no histórico escolar.
TIPODELECAO – tabela que armazena os tipos de ligação dos alunos com o cadastro da UFF,
a saber: ATIVO, FORMADO, CANCELADO, e DESATIVADO.
TIPODISCIPLINA – tabela que armazena os tipos de disciplinas de graduação da UFF que
integram a periodização dos currículos plenos dos cursos de graduação da UFF.
TITULACAO – tabela que armazena os códigos de tipos de titulação (titulação, habilitação,
ênfase ou não informado) relacionados aos cursos / habilitações da UFF.
TURNO – tabela que armazena os códigos e descrições dos turnos utilizados pela UFF, para
alunos, currículo, e turno INEP (ainda não atualizado neste banco de dados).
Quadro 2.1 - Tabelas do esquema acadêmico da UFF
Fonte: UFF
O Anexo 1 traz as chaves das 55 tabelas que compõem o esquema acadêmico
do curso de graduação de engenharia da UFF.
A abrangência temporal do conjunto de dados vai de 1950 a 2005, sendo que
observamos grande variação quanto ao início da abrangência, conforme cada tabela.
Em entrevista ao órgão de Tecnologia da Informação da UFF, fomos
informados que a universidade vinha trabalhando desde 1988 em um ambiente
mainframe.
Utilizavam um banco de dados relacional Supra (da empresa Cincon Systems)
e as linguagens de programação MANTIS (4ª geração), COBOL E ASSEMBLER. O
sistema acadêmico possuía cerca de 1.500 programas e era dotado de mais de 500
telas e cerca de 300 relatórios. Possuía atividades on line (onde os clientes
atualizavam os dados diretamente no sistema) ou batch (onde a equipe de
desenvolvedores atualizava o banco de dados através do processamento de rotinas
com finalidades específicas). O sistema contava com um grupo diversificado de
usuários: a Pró-Reitoria de Assuntos Acadêmicos - PROAC (responsável pela
utilização dos cadastros de cursos, disciplinas, currículos, matérias e alunos), cerca de
70 coordenações de cursos de graduação e 90 departamentos de ensino (os cursos
da UFF estão espalhados em 16 cidades do Estado do Rio de Janeiro).
Logo após a disponibilização dos dados, a UFF criou uma base em ambiente
Oracle para carregar os dados do mainframe, comportando uma base com os dados
dos últimos 5 anos, fora o ano corrente. O computador de grande porte continuou a
operar.
Na migração para o Oracle, algumas tabelas originais foram modificadas e
perderam-se explicações acerca da composição original. Para exemplificar, podem ser
12
citadas as tabelas “Acompanhamento” e “Acompanhamentodesdobramento” que se
fundiram em uma só tabela, com nova configuração.
2.1 COMPOSIÇÃO DA BASE DE DADOS
Inicialmente foi montado um ambiente virtual, utilizando o Microsoft Virtual PC,
para tratar das conversões de massa de dados. Nesse ambiente se fez necessária a
instalação do Microsoft SQL Server 2000 e do Oracle 10G database, sob o sistema
operacional Microsoft Windows 2003 Server.
A partir do MS SQL Server foi montado um DTS (data transformation service)
para carregar os dados advindos dos arquivos texto. Foi criada uma tabela para cada
arquivo, e uma DTS para cada conjunto de aproximadamente 10 tabelas, totalizando 5
DTS para os 55 arquivos. Essa medida foi tomada porque o uso do DTS permite que
os arquivos texto sejam carregados de forma independente do fabricante do banco de
dados, ou seja, podemos reutilizá-los, se necessário for, para preencher tabelas em
um banco de dados Oracle, DB2 e assim por diante, bastando que para isso se
configure a chave de conexão uma só vez. Toda essa configuração torna o ambiente
flexível e escalável, podendo rodar num computador simples ou num grande servidor.
A máquina virtual possui um endereço IP (TCP/IP: Transfer Control Protocol / Internet
Protocol) próprio e os scripts automatizadores (DTS) que realizam o transporte de
dados para qualquer plataforma.
Foi escolhido para o trabalho o banco de dados da Oracle em virtude da
existência de ferramentas avançadas de Data Mining homologadas e conhecidas para
este banco: ODM (Oracle Data Miner) e JDeveloper.
Na seqüência foram carregadas as tabelas no banco de dados Oracle, onde
foram encontrados alguns problemas descritos a seguir:
O posicionamento de colunas de uma matricula estava errado
impossibilitando o carregamento da tabela; a matrícula foi excluída;
O tipo sanguíneo que estava na última coluna da tabela de alunos com um
sinal de + ou – confundiu o script de carregamento impossibilitando-o; foi
adicionada uma coluna vazia no final, para que a última posição fosse um
vazio ao invés do sinal causador do erro;
13
A tabela de acompanhamento tinha uma coluna a mais do que estava
descrito na estrutura das tabelas; foi analisado o tipo de dados de todas as
colunas para descobrir qual delas não se encaixava em perfil algum.
Foram montadas as constraints (chaves primárias e estrangeiras) para todas
as tabelas, à exceção de uma, cuja chave primária passada se repetia centenas de
vezes. Essa tabela se referia a dados de alunos, e todos eles se repetiam, ou seja,
cabia decidir pela exclusão de todos os registros repetidos. Com tal decisão, todavia, a
tabela ficou reduzida à metade.
Após passar pela fase de preparação descrita, a base de dados foi reduzida a
51 tabelas. A construção da base de dados no Oracle está representada no Anexo 2.
2.2
SISTEMATIZAÇÃO DO PROCESSO
Este item relata o funcionamento do setor de Tecnologia da Informação da
Universidade Federal Fluminense do Rio de Janeiro – UFF, que atende a secretaria de
graduação e a PROAC.
A Comissão de Seleção Acadêmica - COSEAC, órgão específico da UFF, tem
a responsabilidade de aplicar o vestibular, conforme diretrizes recebidas pela reitoria
da universidade. Em seguida encaminha a relação dos alunos aprovados, com o
resultado das provas do vestibular, para a Secretaria da Graduação. O questionário
sócio-econômico, aplicado quando da inscrição do vestibulando, é de propriedade da
COSEAC, não tendo sido disponibilizado para este trabalho. As disciplinas do
vestibular têm a codificação descrita na Tabela 2.1.
Tabela 2.1: Codificação das provas do vestibular
Código Etapa 1 Etapa 2
1 Português Português
2 Língua Estrangeira Língua Estrangeira
3 História + OSPB História
4 História Geografia
5 Geografia + OSPB Matemática
6 Geografia Física
7 OSPB Biologia
8 Matemática Química
14
9 Física Redação
10 Biologia -
11 Química -
Fonte: Adaptado a partir dos dados da UFF
A vida acadêmica do aluno se inicia quando ele faz a sua primeira matrícula na
graduação.
Com relação à graduação de Engenharia da UFF, até 1998 os alunos
ingressavam no curso de Engenharia Básica. Depois de cursarem 4 períodos, os
alunos faziam a opção pelo curso específico de engenharia. Somente a partir de 1998
o ingresso passou a ser diretamente no curso específico.
Para cada curso corresponde uma ou mais linhas de ênfase, chamadas de
Habilitação, que traduzem a atuação ou abrangência do curso. Ex. Farmácia,
Farmácia Industrial, Farmácia Bioquímica etc. O aluno ingressa numa habilitação
específica do curso, como Bacharelado, por exemplo. No ano de formando, o aluno
pode pedir permanência de vínculo e cursar mais um ou dois semestres e obter mais
uma habilitação. Nesses casos o aluno recebe o diploma na primeira habilitação e
apostilamento nas seguintes. Dessa forma, podemos encontrar um mesmo aluno com
mais de um registro de matrícula, tendo em vista as possibilidades de alteração de
curso e de habilitação.
A codificação dos cursos de engenharia está descrita no Quadro 2.2.
19 - Engenharia Básica
37 - Engenharia Civil
38 - Engenharia Elétrica
39 - Engenharia Metalúrgica
40 - Engenharia Mecânica
41 - Engenharia de Telecomunicações
42 - Engenharia de Produção
43 - Engenharia Agrícola
45 - Engenharia de Produção (Volta Redonda)
46 - Engenharia Mecânica (Volta Redonda)
Quadro 2.2: Codificação dos cursos de engenharia
Fonte: Adaptado a partir dos dados da UFF
Na UFF, o aluno pode ingressar na graduação das formas apresentadas no
Quadro 2.3.
15
1 – Vestibular: 1º semestre
2 – Vestibular: 2º semestre
3 – Transferência
4 – Permanência de vínculo
5 – Disciplina isolada
6 – Mudança de curso
7 – Convênio cultural
8 – Reingresso
9 – Mandato de segurança
Quadro 2.3: Formas de ingresso
Fonte: Adaptado a partir dos dados da UFF
A identificação do aluno é feita através da associação de 5 atributos que
correspondem ao seu código da matrícula, a saber:
CODGRAU (numérico 2) – indicativo do grau. Ex.: 01 = graduação;
ORDEMMAT (numérico 3) – seqüencial automático que respeita o ano
vigente, o grau e o curso. Ex.: 078;
CODCURSO (numérico 3) – representação dos diferentes cursos. Ex.: 42 =
Engenharia de Produção;
ANOMAT (numérico 4) – ano de ingresso do aluno no curso. Ex.: 1995;
CODINGRESSO (numérico 1) – forma de ingresso. Ex.: 2 = vestibular 2º
semestre.
A gravação no sistema segue a mesma ordenação citada acima. Já a exibição
do código da matrícula em quaisquer documentos ocorre da seguinte forma:
CODINGRESSO + ANOMAT + CODCURSO + ORDEMMAT (+ digito verificador),
respeitando o CODGRAU. Ex.: 2 95 42 078 – 7.
A identificação do aluno ocorre nas demais tabelas através do código interno
(atributo CODINTERNO), que passa a fazer a associação, em substituição à matrícula.
As disciplinas que fazem parte dos currículos são selecionadas pela
coordenação dos cursos, incluindo a matéria de composição. Cada aluno está
vinculado a um currículo e o tipo da disciplina a ser cursada obedece à essa
vinculação, conforme mostra a Tabela 2.2.
16
Tabela 2.2: Tipos de disciplina
Código Tipo da Disciplina Informação
O obrigatórias fazem parte do currículo do aluno e devem ser
cursadas em determinado período,
obrigatoriamente
Op optativas fazem parte do currículo do aluno e devem ser
cursadas em período a ser escolhido pelo aluno
C complementares Não fazem parte do currículo do aluno e podem
ser cursadas a critério próprio
Fonte: Adaptado a partir dos dados da UFF
A aprovação dos alunos nas disciplinas é compreendida a partir de 3 classes
de notas descritas na Tabela 2.3.
Tabela 2.3: Resultado da avaliação da disciplina
Nota Resultado
Até 3,9 Reprovado
De 4,0 a 5,9 Verificação Suplementar
De 6 a 10 Aprovado
Fonte: Adaptado a partir dos dados da UFF
Pode haver trancamento da matrícula do aluno, por sua solicitação ou
automaticamente, caso ele não se inscreva em disciplina alguma no semestre vigente.
O aluno pode ter até 4 trancamentos, solicitados ou automáticos, durante um
curso/habilitação.
Cada período da vida acadêmica do aluno é expresso pelo tipo de situação
relacionado à matrícula. A UFF tem 11 tipos de situações, descritos no Quadro 2.4.
0 – Inscrito
1 – Não inscrito
2 – Trancado
3 – Abandono
4 – Formando
5 – Interno
6 – Trancamento automático
7 – Trancamento especial
8 – Pendente
9 – Trancamento auto abandono
10 – Afastado
Quadro 2.3: Tipos de situação
Fonte: Adaptado a partir dos dados da UFF
17
O tipo de situação está associado ao código de deleção, que indica a posição
efetiva do aluno. Os códigos de deleção são os descritos no Quadro 2.4:
0 – Ativo
1 – Cancelado por abandono
2 – Cancelado por ultrapassar o limite de permanência
3 – Desistência após vestibular
5 – Cancelados por mudança de curso
7 – Transferência para outra instituição de ensino
8 – Formados
9 – Cancelados por casos especiais
10 – Cancelados por solicitação do aluno
12 – Reopção Curso
15 – Desistência vaga transferida
17 – Desistência mudança curso
20 – Falecimento
22 – Cancelados por insuficiência de aproveitamento
24 – Cancelados por vestibular trancado no semestre
Quadro 2.4: Códigos de deleção
Fonte: Adaptado a partir dos dados da UFF
Em todas as tabelas existe um atributo denominado ANOSEM (ano/semestre)
que indica quando a operação foi realizada. Logo, o atributo ANOSEM traz a última
atualização efetuada em cada registro.
O tempo de permanência do aluno na UFF varia de acordo com o curso e está
demonstrado na tabela 2.3.
Tabela 2.3: Tempo de permanência na graduação
Tempo de permanência em períodos
Mínimo Médio Máximo Cursos de engenharia
8 10 18 Civil, Elétrica, Mecânica, Telecomunicações e
Agrícola
8 10 16 Metalúrgica
9 10 18 Produção
Fonte: Adaptado a partir dos dados da UFF
18
2.3 PREPARAÇÃO DA BASE
Como citamos na Introdução deste trabalho, os dados precisam passar por
etapas imprescindíveis de preparação, organização e pré-processamento, para que
sejam convertidos em informação útil e passível de aplicação.
BRAGA (2005) orienta sobre o papel conceitual dos dados, como fonte de
informação no processo de mineração. O autor destaca três princípios que devem ser
considerados, sob o ponto de vista filosófico:
A informação está nos dados
O trabalho deve ser desenvolvido nos dados
A qualidade dos dados é critica e de muito mais importância do que a
quantidade
O autor destaca também cinco características que devem ser obedecidas na
capacitação e manutenção dos dados:
Acurácia – os dados devem se apresentar sem erros de medição ou
digitação
Consistência – devem fazer sentido
Completude – não podem existir campos faltantes
Relevância – concernentes ao problema
Não redundância – não duplicação da mesma informação.
A base de dados, uma vez constituída, deve ser analisada com vistas à
redução do número de amostras, de atributos e de variáveis, ou seja, a eliminação de
dados irrelevantes ou pouco relevantes. Estas etapas são importantes porque dados
inúteis podem causar precariedade ao modelo criado.
Este item demonstra as etapas de limpeza e depuração dos dados, a partir da
forma original recebida. Foram desconsiderados os dados faltantes e desprezados os
dados inconsistentes (e aberrantes). É importante registrar que optamos por não
efetuar qualquer alteração nos dados originais, uma vez que as variáveis estavam
expressas de forma conveniente à pesquisa. Porém, em determinados momentos
como veremos adiante, foi preciso efetuar releitura de dados para a criação de
variáveis categóricas. A base foi reduzida a um tamanho administrável, visando
favorecer o tratamento dos dados e consequentemente a concisão e o entendimento.
19
2.3.1 Organização e pré-processamento
A primeira providência tomada foi a criação da chave indexada “MATRÍCULA”,
e a sua utilização em substituição aos atributos: CODGRAU + ORDEMMAT +
CODCURSO + ANOMAT + CODINGRESSO.
Em seguida, cada tabela da base original foi verificada quanto ao conjunto e a
consistência dos dados, para obtermos o máximo de integridade possível na busca
dos atributos e variáveis que seriam mais eficientes na análise do cenário da
graduação de engenharia.
A tabela Acompanhamento Desdobramento “ACOMPDESDOBR” foi escolhida
como ponto de partida para os trabalhos de análise, tendo em vista ser a única tabela
onde se encontramos os códigos que definem a situação final do aluno: o código de
deleção.
Inicialmente utilizamos o critério de separação das ocorrências da tabela
ACOMPDESDOBR pelo maior código de deleção (MAXCODDELECAO), uma vez que
a situação “Ativo” corresponde ao código de deleção “0” e os demais códigos (que
representam deleção de fato) são maiores que 0. Diversas análises foram feitas a
partir do grupamento gerado, assim como estatísticas e quadros comparativos.
Posteriormente extraímos uma nova visão da tabela ACOMPDESDOBR, só
que adotando como critério a data de atualização do código de deleção: atributo
ANOSEM. Para surpresa foram encontrados outros totais de ocorrências por código
de deleção: ainda que teoricamente cada matrícula só devesse corresponder a um tipo
de deleção, algumas matrículas tinham transitado em mais de um código de deleção
(diferente de 0). A tabela 2.3.1.1 demonstra o grupamento final da tabela
ACOMPDESDOBR, conforme o código de deleção correspondente a última
atualização registrada.
20
Tabela 2.3.1.1: Base de dados original (por código de deleção)
Código de deleção Registros Grandeza
0 – Ativos 3.040 46,36%
8 – Formados 1.373 20,94%
3 - Desistência após vestibular 845 12,89%
1 - Cancelados por abandono 724 11,04%
24 - Cancelados por vestibular trancado no semestre 149 2,27%
10 - Cancelados por solicitação do aluno 114 1,74%
7 - Transferência para outra instituição de ensino 102 1,56%
22 - Cancelados por insuficiência de aproveitamento 90 1,37%
9 - Cancelados por casos especiais 64 0,98%
5 - Cancelados por mudança de curso 45 0,69%
2 - Ultrapassar limite de permanência 3 0,05%
15 - Desistência vaga transferida 3 0,05%
17 - Desistência mudança curso 3 0,05%
20 – Falecimento 2 0,03%
12 - Reopção Curso 1 0,02%
Tabela Acompanhamentodesdobramento 6.558 100,0%
Fonte: A autora
Para os códigos de deleção relacionados a seguir, que também fazem parte do
esquema acadêmico recebido, não foram encontradas quaisquer ocorrências na base
de dados (Quadro 2.3.1.1).
4 = Cancelado por desdobramento interrompido
11 = Cancelado por opção de curso
13 = Cancelado por alteração de matrícula
14 = Cancelado por deslocamento interno
16 = Cancelado por desistência de reingresso
18 = Cancelado por desistência de vaga deslocamento interno
19 = Cancelado por liminar cassada
21 = Cancelado por permanência de vínculo
23 = Cancelado por término regulamentar
25 = Cancelado por motivos disciplinares
Quadro 2.3.1.1 Códigos de deleção sem registros
Fonte: Adaptado a partir dos dados da UFF
21
A partir da tabela ACOMPDESDOBR foi realizada uma análise da quantidade
de dados disponíveis por ano de matrícula e por forma de ingresso, tendo-se chegado
aos números representados na Tabela 2.3.1.2.
Tabela 2.3.1.2: Base de dados original (por código do curso)
MATRÍCULAS NOS CURSOS DA GRADUAÇÃO DE ENGENHARIA
ANO
MAT
Básica Civil Elétrica Metal Mecân Telecom Produção Agríc
Produção
VRed.
Mecân
VRed.
TOTAL
1954 1 1
1956 1 1
1957 1 1
1960 1 1
1962 1 1
1969 3 1 4
1970 1 1
1971 2 2
1972 2 1 3
1973 1 1 1 3
1974 2 4 1 1 8
1975 1 2 3
1976 2 1 3
1977 5 5
1978 1 1
1979 4 1 5
1980 5 1 6
1981 7 1 8
1982 2 1 3
1983 3 2 5
1984 2 1 3
1985 2 1 3
1986 3 1 4
1987 4 1 1 3 9
1988 1 1 3 6 1 12
1989 3 2 1 1 7
1990 2 1 2 7 2 14
1991 8 7 3 10 7 8 43
1992 2 7 6 3 7 14 17 1 57
22
1993 23 6 2 9 18 22 80
1994 17 1 4 7 22 23 74
1995 3 47 8 7 28 53 70 1 217
1996 2 23 9 15 15 79 110 253
1997 33 14 80 17 90 115 349
1998 6 21 13 77 23 106 116 362
1999 66 83 74 63 68 63 25 442
2000 79 107 66 76 95 67 31 521
2001 74 71 61 69 86 82 40 63 56 602
2002 103 107 81 105 134 109 93 82 88 902
2003 105 116 66 100 140 114 72 69 65 847
2004 121 94 63 78 144 99 93 78 66 836
2005 107 88 64 91 123 158 98 65 62 856
TOTAL 64 844 735 684 706 1201 1176 454 357 337 6.558
Fonte: A autora
A referência ao período de 1954 a 1994 remonta a 371 registros,
correspondendo a apenas 5,7% do total. Decidimos por redimensionar a base,
passando-se a considerar a abrangência de 11 anos, de 1995 a 2005, passando o
número total de registros de referência para 6.187 matrículas.
Com relação às formas de ingresso, verificou-se que o “ingresso por vestibular”
representava 94% do total. Das demais, cinco formas de ingresso inviabilizavam a
análise quanto ao tempo de permanência, uma vez que não obedecem a qualquer
fixação de tempo: Transferência, Permanência de vínculo, Disciplina isolada, Mudança
de curso e Reingresso. Restavam as formas de ingresso “Convênio cultural” e
“Mandato de segurança” que apresentavam freqüência irrelevante. Ficou estabelecido
apenas “vestibular” como critério de análise do atributo “forma de ingresso”.
Chegou-se, portanto, à base redimensionada de 5.820 matrículas –
representativa dos alunos egressos por vestibular nos anos de 1995 até 2005.
A base foi dividida para possibilitar a análise em grupos de mesma relevância,
conforme demonstrado na Tabela 2.3.1.3, a seguir.
23
Tabela 2.3.1.3: Agrupamento dos códigos de deleção para análise
Código de deleção / Descritivo Repres.
Grupo
1
Grupo
2
Grupo
3
Grupo
4
Grupo
5
0 – Ativos
49,09% 2.857
8 – Formados
17,71%
1.031
3 - Desistência após vestibular
14,52%
845
1 - Cancelados por abandono
16,49%
606
24 - Cancelados por vestibular trancado no semestre
149
10 - Cancelados por solicitação do aluno
102
22 - Cancelados por insuficiência de aproveitamento
69
9 - Cancelados por casos especiais
33
17 - Desistência mudança curso
1
7 - Transferência para outra instituição de ensino
2,18%
81
5 - Cancelados por mudança de curso 43
20 – Falecimento
2
12 - Reopção Curso
1
Total de matrículas a serem analisadas 5.820 2.857 1.031 845 960 127
Fonte: A autora
Com relação aos grupos instituídos para análise, com vistas à segurança e à
consistência dos dados, foram novamente empregados dois critérios para confronto: 1-
por “tempo de permanência”, observando as datas de matrícula (DATA_MAT), de
atualização dos dados (ANO_SEM), e da abrangência temporal da massa de dados
(2º semestre de 2005); e 2- por “coeficiente de rendimento”, que resulta de uma
fórmula composta pelo somatório dos produtos obtidos com as notas nas disciplinas
cursadas e a carga horária das mesmas, dividido pelo somatório das cargas horárias.
Os resultados foram os seguintes, por grupo de análise:
Grupo 1: Ativos
Constavam da nova base 2.857 registros com o código de deleção 0 – Ativos.
Foram encontradas: 2 matrículas de 1995 que ainda permaneciam no código de curso
19 - Engenharia Básica (quando já deveriam ter sofrido conversão para um código
específico da engenharia); e 15 matrículas anteriores a 2005 que ainda registravam
24
coeficiente de rendimento igual a zero. Sob suspeição de erro na atualização do
código de deleção as 17 matrículas foram retiradas da base.
Os registros de Ativos passaram para 2.840 matrículas.
Grupo 2: Formados
Constavam da nova base 1.031 registros com o código de deleção 8
Formados. Não constavam registros de alunos formados nos cursos 45 (Engenharia
de Produção – Volta Redonda ) e 46 (Engenharia Mecânica – Volta Redonda ) porque
ambos se iniciaram em 2001 e a base de dados abrange atualizações que foram feitas
até o 2º semestre de 2005.
Foram encontradas 11 matrículas com o tempo de permanência no curso
variando de zero a 5 semestres. Os registros foram retirados da nova base, dada a
probabilidade de não terem sido ingressos por vestibular, devido ao tempo mínimo
exigido para realização dos cursos.
Os registros de Formados passaram para 1.020 matrículas.
Grupo 3: Desistência após vestibular
Constavam da nova base 845 registros com o código de deleção 3
Desistência após vestibular. Foram encontradas 10 matrículas com coeficiente de
rendimento maior que zero, indicando que houve nota em disciplinas cursadas. Tais
matrículas foram convertidas para um código 99, criado para representar outros casos
de cancelamento efetivo da matrícula do aluno. Tendo em vista a falta de dados para o
não ingresso no curso, dado o caráter subjetivo da desistência antes da entrada, os
835 registros de Desistência após vestibular foram retiradas da nova base de dados.
Grupo 4: Cancelamentos efetivos
Constavam da nova base 960 registros com códigos de deleção que indicam
abandono dos cursos da engenharia, significando cancelamentos de fato, a saber: 1 -
Cancelados por abandono; 9 - Cancelados por casos especiais; 10 - Cancelados por
solicitação do aluno; 17 - Desistência mudança curso; 22 - Cancelados por
insuficiência de aproveitamento e 24 - Cancelados por vestibular trancado no
semestre. Ao grupo foi incluído o código 99, representando as 10 matrículas advindas
do código 3 - Desistência após vestibular. Os registros de Cancelados passaram para
970 matrículas.
25
Grupo 5: Outros cancelamentos
Constavam da nova base 127 registros com códigos de deleção que indicam
cancelamento da matrícula, mas não traduzem uma situação de abandono que se
configure em objeto de análise. São eles: 5 - Cancelados por mudança de curso; 7 -
Transferência para outra instituição de ensino; 12 - Reopção de curso e 20 –
Falecimento. Os 127 registros foram retirados da base.
Finda a análise de consistência por agrupamento dos códigos de deleção,
retiramos 962 registros da nova base, que passou a representar 4.830 matrículas.
Foram criadas 3 categorias para fins de classificação de dados. As categorias
representam a situação do agrupamento dos códigos de deleção pertinentes,
conforme demonstrado na Tabela 2.3.1.4.
Tabela 2.3.1.4: Síntese do agrupamento dos códigos de deleção
Situação
por Curso
19 37 38 39 40 41 42 43 45 46
Total
Básica Civil Eletr Metal Mecan Telecom Produção Agric
Prod
VR
Mec
VR
Ativos 0 359 340 277 304 416 361 271 269 243 2.840 59%
Formados 0 108 56 69 66 297 420 4 0 0 1.020 21%
Cancelados 4 103 119 163 128 176 109 92 29 47 970 20%
Total
4 570 515 509 498 889 890 367 298 290
4.830
100%
Representação
dos Cancelados
18% 23% 32% 26% 20% 12% 25%
Só se
iniciaram
em 2001
20%
Fonte: A autora
Até então a base de dados estava composta por matrículas, entretanto sem
associação à vida curricular. Agregamos então a tabela “Diário”, que carregava todas
as inscrições em disciplinas e os seus resultados. E para significar o peso da disciplina
no currículo, agregamos também o atributo Tipodisciplina (O, Op, C), carregado da
Tabela Periodização.
Como etapa de redução de variáveis, intervimos na situação dos alunos (8
códigos de deleção) nas notas das disciplinas (de 0 a 10,0) e no tempo de
permanência (de 0,5 a 12,0 períodos). Foram criadas as classes que seriam utilizadas
como variáveis de saída. As classes passaram a funcionar como atributos categóricos,
correspondentes a agrupamento ou intervalo de dados, conforme a tabela Tabela
2.3.1.5.
26
Tabela 2.3.1.5: Categorização
Atributos Composição Variáveis
Situação Agrupamento dos códigos de deleção
correspondentes
A – Ativos
F – Formados
C – Cancelados
ClasseNota Intervalos de notas que determinam o
resultado do aluno na disciplina:
A – De 6 em diante
B – De 4 a 5,9
C – Até 3,9
D – Sem nota
A – Aprovado
B – Verificação suplementar
C – Reprovado
D - Desistiu
ClasseTempo Representação a partir do tempo médio
de permanência admitido para o aluno no
curso, entre períodos cursados e
trancados.
X – até 10 períodos,
inclusive
Y – acima de 10 períodos
Fonte: A autora
Os seguintes atributos passaram a compor a base:
Matricula – criada com a associação dos 5 atributos que compunham a chave
Anosemmat – ano/semestre correspondente à matrícula
Curso – código do curso específico da graduação de engenharia
Anosematual – ano/semestre correspondente à situação da matrícula
Anosemdiario – ano/semestre do curso da disciplina; lançamento no Diário
Disciplina – codificação atribuída à disciplina
Tipodisciplina – categorização do tipo da disciplina (O, Op, C)
Nota – valor conseguido na disciplina na primeira verificação
Notavs – valor conseguido na disciplina na verificação suplementar
Coeficienterendimento Coeficiente de rendimento que resulta de uma
fórmula composta pelo somatório dos produtos obtidos com as notas nas
disciplinas cursadas e a carga horária das mesmas, dividido pelo somatório
das cargas horárias.
NumCredReq – Número de créditos requeridos na disciplina
NumCredObt – Número de créditos obtidos na disciplina
Situação – A, F, C
Classenota – A, B, C, D
27
Classetempo – X, Y
O atributo “disciplina” foi selecionado para saneamento dos valores faltantes
(missing values), partindo-se do princípio de que o atributo é indispensável no
entendimento da vida do aluno na graduação. Logo, todas as matrículas que não
apresentavam inscrição em disciplina foram excluídas da base.
A BASENOVA foi montada a partir dessa depuração, correspondendo a
177.833 tuplas (linhas) e 15 atributos o que totalizava 2.667.495 registros, um grande
volume de dados a ser minerado. A necessidade de redimensionamento da base e/ou
da redução de atributos e variáveis só foi percebida através dos resultados da
aplicação das técnicas de mineração de dados, em um processo constante de busca,
análise e reorganização da base.
2.4 DADOS A SEREM MINERADOS
Neste item descrevemos como a BASENOVA foi passando por
redimensionamentos, em correspondência às necessidades apontadas pelas
atividades de mineração de dados.
Algumas tabelas da massa de dados original eram alvos de consultas
constantes e, paulatinamente, tiveram alguns dados incorporados às novas bases
criadas.
Apresentamos a seguir um esquema da composição da BASENOVA e das
tabelas periféricas (Figura 2.4.1).
28
Figura 2.4.1: Esquema de composição da BASENOVA
Fonte: A autora
Os resultados das pesquisas ainda estavam pulverizados nas diversas
variáveis e não apresentavam coerência. Na montagem da base estavam
considerados, em relação à situação das matrículas: 59% Ativos; 21% Formados e
20% Cancelados. Entretanto os resultados se direcionavam às situações Ativos e
Formados, em 80% dos casos. Ainda que se desconsiderasse a situação Ativo (59%)
o fenômeno se repetia porque os alunos Ativos e Formados detinham uma quantidade
de registros muito maior do que os Cancelados, dado o seu histórico de inscrição em
disciplinas. Foi necessário construir outra base focada no problema: o que, dentre os
dados que dispomos, pode levar um aluno ao abandono do curso? A partir daí foram
feitos filtros sucessivos, passando-se a considerar nos Atributos: Situação: somente
igual a C (cancelado); Tipo disciplina: somente igual a O (obrigatória) e Classe nota:
diferente de A (aprovado), conforme mostra a Figura 2.4.2.
NOVABASE
Coeficienterend
NumCredReq
NumCredObt
Curso
Anosem_atual
PERIODIZACAO
DIARIO
Disciplinas
HISTORICO
Categoria
Disciplina
(O, Op, C)
CLASSE
TEMPO
Anosem_diario
Nota
Nota vs
Nota
CLASSE
NOTA
SITUAÇÃO
MATRICULA
ACOMPANHA
MENTO
ACOMPANHA
MENTO_DESD
OBRAMENTO
Codigo de
dele
ç
ão
Cálculo da
p
ermanência
Matrículas:
Anosem_mat
> = 1995_1
Ingresso <=2
(vestibular)
29
Figura 2.4.2: BASENOVA1
Fonte: A autora
Esta atualização fez reduzir o número de tuplas (linhas) de 177.833 para
primeiramente 7.357 tuplas, e com o critério das disciplinas obrigatórias para
simplesmente 5.403 tuplas. O número de reprovações nas disciplinas obrigatórias,
apenas na base de Cancelados, somou 5.363 casos, correspondendo às 117
disciplinas. Construímos uma nova base ainda mais focada, trazendo as disciplinas
que mais reprovavam. Para a construção da view perguntamos pelas disciplinas que
ocasionaram mais de 20 reprovações. Chegamos a 32 disciplinas, 4.865 casos,
correspondendo a 91% do total. Analisando o resultado, verificamos que 18 dessas
disciplinas tinham uma participação inferior a 2%, ou seja, apenas 14 disciplinas
totalizavam 4.153 casos, correspondendo a 77% de participação. A ordenação das 14
disciplinas está apresentada na Tabela 2.4.1. A descrição dos comandos em SQL de
todas as construções está no Anexo 3 e a relação descritiva das 32 disciplinas pode
ser encontrada no Anexo 4.
BASENOVA
1
PERIODIZACAO
Categoria
Disci
p
lina
SITUAÇÃO
CLASSE
NOTA
Somente ‘O’
Somente ‘C’
‘B’, ‘C’, ‘D’
30
Tabela 2.4.1: Disciplinas obrigatórias que mais reprovam na base de Cancelados
Disciplinas Casos
1 GMA04043 Cálculo Diferencial e Integral Aplicado I 761 14%
2 GFI05100 Física Geral e Experimental XVIII 674 13%
3 GAN06118 Álgebra Linear Aplicada 515 10%
4 GGM02055 Introdução à Geometria Descritiva 418 8%
5 TCC03060 Introdução à Informática 350 7%
6 TCC03063 Programação de Computadores III 234 4%
7 GMA06074 Cálculo Diferencial e Integral Aplicado II 206 4%
8 GMA04004 Cálculo Diferencial e Integral IV 171 3%
9 GMA06071 Equações Diferenciais Aplicadas 156 3%
10 GFI05102 Física Geral e Experimental XX 155 3%
11 GFI05101 Física Geral e Experimental XIX 151 3%
12 GGM03077 Geometria Descritiva VI 130 2%
13 GET04021 Estatística XI 126 2%
14 TEP03041 Fundamentos de Economia 106 2%
Disciplinas que mais reprovam 4153 77%
Demais disciplinas 712 23%
Total 4865 100%
Fonte: A autora
Para facilitar o acompanhamento do trabalho, estamos substituindo a descrição
da disciplina GFI05100 “Física Geral e Experimental XVIII”, conforme consta das
tabelas da UFF, para “Física I”, tendo em vista tratar-se da primeira disciplina de
Física encontrada. As demais seguem a mesma simplificação, ou seja, Física XIX para
Física II etc.
Visando demonstrar a interdependência das disciplinas obrigatórias mais
relevantes, com relação aos pré-requisitos, elaboramos um esquema contextualizando
as 14 disciplinas que mais reprovam – destacadas na Figura 2.4.2.
31
Figura 2.4.2: Interdependência das disciplinas
Fonte: A autora
A título de comentário quanto à interdependência, chamamos atenção para a
disciplina Cálculo II (GMA06074) que é pré-requisito para 6 outras disciplinas, e para a
disciplina (GFI05103) que tem 4 disciplinas como pré-requisito, apesar de não figurar
no grupo das 14 disciplinas que mais reprovam.
Com a etapa de Preparação dos Dados concluída, chegamos a BASENOVA
final (a 8ª versão construída) correspondendo a 817 matrículas distintas e mantendo
as 32 disciplinas (91% da base de Cancelados), compostas em 4.865 tuplas (ou
linhas).
Com relação à Classe da Nota, a base final ficou constituída por 121 registros
na classe B (verificação suplementar = 2,5%), 3.042 registros na classe C (reprovados
= 62,5%) e 1.702 na classe D (sem nota = 35%).
Com relação à Classe do Tempo, a base final ficou constituída por 3.814
registros na classe X (abandonos no prazo de 5 anos = 78,4% da base) e 1.051 na
classe Y (após 5 anos = 21,6%).
Cálculo I
Álgebra
Cálculo II
sica I
Física III
Física II
Estatístic
Mec.Ger
,
V
Equações
Química II
Cálculo
Física IV
Sist.Isost. Mecânica I
Mat.Const
Fen.Trans
Int.Inform
Prog.Comp
F.En
g
.Eco
Int.Geom.
Met.En
g
Geom.Descr
Fund.Econ.
Int.Met.Num
32
3 MINERAÇÃO DE DADOS
O conhecimento encontrado nos dados vem fascinando o mundo. As
informações e o conhecimento descobertos têm sido aplicados no gerenciamento dos
negócios, no controle da produção, nas análises de marketing, nas áreas de
engenharia, na exploração científica etc.
Só que “os dados estão por aí”, como dizem os professores. Culturalmente não
nos preocupamos com os dados e nem estamos acostumados a preparar e organizar
nossos registros nem tampouco temos acesso a eles, depois de “usados”. A verdade é
que, para que sejam convertidos em informação útil e passível de aplicação, os dados
precisam passar por etapas imprescindíveis de preparação, organização e pré-
processamento. Antes de tudo, os dados precisam ser resgatados e armazenados em
bases, comumente chamadas de bancos de dados.
A partir da preocupação com o dado, e da necessidade do seu armazenamento
em bases, foram criadas derivações dos bancos de dados através de técnicas que
filtram o que se precisa especificar. Conforme o tempo foi passando, e o volume
desses bancos se transformou em grandes massas de dados, novos processos foram
criados para resgate dos dados e concatenação das informações, como o processo de
data warehousing. A criação de um Data Warehouse (DW) é considerada como um
dos primeiros passos para viabilizar a análise de grandes massas de dados
(REZENDE, 2003). O DW, ou armazéns de dados, são implementações de bancos de
dados relacionais que seguem uma filosofia cujo norte é permitir a construção de um
ambiente para análise de dados, e diferentes maneiras de vê-los e organizá-los.
Segundo um dos pais do conceito, Bill Inmon, reconhecido como o idealizador
do processo de data warehousing, o DW é “um conjunto de dados baseado em
assuntos, integrado, não-volátil e variável em relação ao tempo, de apoio às decisões
gerenciais” (INMON, 2002). Desdobrando as características de um DW elencadas pelo
autor, temos:
organizado por assunto: os dados são organizados por com assunto ao
invés de usar uma abordagem que vê os dados como de um sistema. Assim
o foco fica na área de conhecimento/negócio e no modelo de decisão da
organização.
integrado: há um padrão quanto as métricas, e o domínio dos dados é
normalizado; não há conceitos modelados de maneiras diferentes,. Por
33
exemplo, várias aplicações podem codificar o dado “sexo” assumindo
diferentes domínios: em uma poderia ser codificado como “M” e “F”, em outro
-1 e 0 ou ainda “H” e “M” . Para que os dados sejam trazidos para o DW eles
devem assumir uma convenção, por exemplo “H” e “M”.
variante no tempo: O conceito de data warehouse em si contempla que os
dados são apresentados ao longo do tempo, daí a dimensão (forma de
visualizar os dados) TEMPO é presente no DW, como uma forma de
representar os Fatos (registros de medições), permitindo comparação,
previsão, análise de tendências etc.
não-volátil: O dados que são trazidos para o data warehouse não são
atualizados ou mudados.
Harrisson (1998) ampliando a definição de Inmon: “um data warehouse deve
também conter dados precisos e completos. Deve ser capaz de apoiar todas as
necessidades analíticas do usuário. Tendo como princípio dar condições ao usuário
para lidar com os aspectos críticos do gerenciamento do negócio, estas condições são
baseadas nos assuntos necessários ao sucesso do negócio, em vez de se prender a
aspectos operacionais”.
Dodge e Gormam (2000) declaram que “DW não é um projeto, pois um projeto
tem um início, um cronograma que determina o fim do projeto; o projeto tem definido
os resultados esperados e as restrições do projeto; um projeto tem orçamento e tem
designado os recursos necessários. O mais importante, o projeto tem definido um
prazo de finalização. O data warehouse é implementado em uma série de
miniprojetos, cada qual deve ter todas as características assim descritas”.
Outro autor importante sobre o assunto, o americano Ralph Kimball, define o
DW como: “uma fonte de dados que possui a capacidade de consultar as informações
da organização. O data warehouse é na realidade uma união de todas as bases de
dados constituintes da organização. O DW é alimentado por uma área especial que
prepara os dados para serem utilizados. O gerenciamento do DW é responsável tanto
pela busca das informações desejadas quanto pela preparação destas informações”.
(KIMBALL, 2002)
Assim, ainda que de maneira simplista, podemos ver o DW como um banco de
dados construído a partir de diversas fontes de dados, baseado em uma analogia com
um armazém da vida real, idealizado como uma grande escala de coleção e
armazenagem, organizando áreas de dados legados. REZENDE (2003) acrescenta:
“... que contenha dados limpos, agregados e consolidados que possam ser analisados
34
por ferramentas OLAP (On-Line Analytical Processing)” . A Figura 3.1 demonstra a
relação.
Figura 3.1: Relação entre Base de Dados, Data Warehouse e Mineração de Dados
Fonte: Sistemas Inteligentes Fundamentos e Aplicações (REZENDE, 2003)
O desenvolvimento de um DW específico para um assunto é um Data Mart,
desenvolvido através da construção de um cubo, com fatos (assuntos) e dimensões
(uso, tempo, medidas). A partir do DW os dados são distribuídos para os Data Marts,
projetados para serem acessados pelo próprio usuário, e utilizados como suporte a
decisão. Enquanto o DW foi projetado para gerenciar um grande estoque de dados, os
Data Marts foram projetados para gerenciar pequenos pacotes de dados específicos,
que têm a finalidade de apresentar as seleções destes dados ao usuário final. Em
síntese, enquanto o DW filtra, o Data Mart foca.
Como vimos, os grandes bancos de dados não mais permitem tratamento
manual. Neste ponto se encontra a ênfase da mineração de dados: a capacidade de
extração do conhecimento contido em um grande volume de dados.
A Mineração de Dados (MD), do termo inglês Data Mining, é o processo de
vasculhar de maneira metódica, e orientada, um conjunto grande de dados à procura
de padrões, seqüências temporais e regras de associação que explicitem de alguma
maneira a relação entre dados (ou variáveis). Com isso o resultado tende a ser a
geração de uma nova coleção de dados, que represente uma sentença estabelecida
pela regra ou padrão.
A MD surgiu do Knowledge Discovery on DatabasesKDD, um processo
maior que abrange as áreas de análise de base de dados, aprendizado de máquina,
35
estatística e matemática, sistemas especialistas e visualização de dados. O KDD visa
a obtenção de conhecimento a partir de grande massa de dados, utilizando para tanto
as técnicas, algoritmos e métodos de tais disciplinas, e da confluência entre elas. O
KDD é referenciado na literatura como um “campo de pesquisa”. Alguns autores
distinguem os processos de KDD e MD (Fayyad, Piatetsky-Sahapiro e Smyth 1996).
Podemos dizer que a MD é uma etapa da KDD. Entretanto, também podemos dizer
que a linha divisória entre os processos é tênue, tendo em vista o objetivo comum de
descoberta do conhecimento.
Simplificando, a MD trata-se de um conjunto de técnicas para recuperação de
dados e busca por informações “ocultas” numa grande massa de dados, usando para
isso técnicas sofisticadas que vão da estatística à inteligência computacional.
Conforme Han e Kamber (2001) a mineração de dados seria melhor
denominada por “knowledge mining from data”. Os autores admitem que a criação de
bancos de dados remonta à 1960. A partir daí, os bancos de dados (e a tecnologia da
informação) tem evoluído de forma surpreendente, dos sistemas de processamento de
dados primitivos para os poderosos e sofisticados sistemas de bancos de dados. A
Figura 3.2 traz essa representação.
36
Figura 3.2: Relação entre Base de Dados, Data Warehouse e Mineração de Dados
Fonte: Data Mining Concepts and Techniques (HAN; KAMER, 2001)
37
Han e Kamber (2001) propõem as seguintes etapas num processo de
mineração de dados:
1ª – Data cleaning: remoção de ruídos e dados inconsistentes;
2ª – Data integration: onde as múltiplas fontes dos dados podem ser
combinadas
2;
3ª – Data selection: onde os dados relevantes à tarefa da análise são
recuperados da base de dados;
4ª – Data transformation: onde os dados são transformados ou consolidados
nos formulários apropriados para mineração
3
;
5ª – Data mining: um processo essencial onde os métodos inteligentes são
aplicados a fim de se extrair padrões dos dados;
6ª – Pattern evaluation: para identificar os padrões mais interessantes para a
representação do conhecimento, baseado em algumas medidas de
interessabilidade;
7ª – Knowledge apresentation: onde as técnicas de representação e de
visualização do conhecimento são usadas para apresentar o conhecimento
minerado.
2
Uma tendência popular da indústria da informação é representar as etapas de preparação dos
dados (data cleaning) e integração dos dados (data integration) como uma etapa de ‘pré-
processamento’ onde os dados resultantes são armazenados em um datawarehouse. (nota dos
autores)
3
Ás vezes a transformação e a consolidação dos dados são realizadas antes do processo de
seleção dos dados, em particular nos casos de armazenamento dos dados (datawarehousing).
(nota dos autores)
38
A Figura 3.3 representa as etapas em um processo de mineração.
Figura 3.3: Data Mining as a step in the process of knowledge discovery
Fonte: Data Mining Concepts and Techniques (HAN; KAMBER, 2001)
Resumidamente, a implementação de um projeto de mineração de dados deixa
claras três etapas imprescindíveis: 1- a definição do problema, 2- a aquisição e
avaliação dos dados, 3- a extração de características e destaques.
39
3.1 TÉCNICAS UTILIZADAS
Dentre as funcionalidades da mineração de dados existe a especificação do
tipo de padrão que pode ser encontrado na tarefa de mineração. Usualmente tais
padrões possuem duas classificações:
descritiva: caracterizam as propriedades gerais do dado dentro da base;
preditiva: fazem inferências nos dados correntes visando fazer predições.
Indo além, a mineração de dados permite que se façam análises sob diferentes
níveis de abstração. Isto significa que permite que palpites, pistas, intuições sejam
seguidos e quiçá transformados em padrões interessantes, sem que isso incorra em
custos adicionais. A mudança de foco é favorecida.
Regras de Associação
Dentre as técnicas de mineração mais utilizadas encontra-se a Análise de
Associações (Association Analysis), ou Regras de Associação. A técnica consiste
na descoberta de regras que mostram condições nos valores dos atributos que
sugerem padrões de associação. A análise por regras de associação tem origem nos
estudos de Marketing, sendo bastante utilizada na composição de “cestas”. A Figura
3.1.1 mostra essa analogia.
Figura 3.1.1: Market basket analysis
Fonte: Data Mining Concepts and Techniques (HAN; KAMBER, 2001
)
40
As regras de associação buscam satisfazer uma condição encontrada em mais
de um atributo. Na composição das regras de associação são consideradas duas
métricas: o suporte (support), i.e. a freqüência com que os dados aparecem no
conjunto de dados, e a confiança (confidence), que indica a probabilidade de
associação entre os dados selecionados. Portanto, um suporte de 0,2 para uma Regra
de Associação indica que apenas 2% de todas as transações sob análise estão
aparecendo juntas. Da mesma forma, um nível de 2% de confiança estabelece esse
grau de garantia dos itens estarem agrupados na mesma “cesta”. Os níveis de suporte
e confiança são medidas de interessabilidade da regra criada. Apenas os especialistas
do negócio analisado podem estipular os níveis mínimos que interessam para análise.
As Regras de Associação oferecem possibilidades de análises
multidimensionais. Com base nos resultados são tomadas decisões de negócios e
podem ser traçadas novas estratégias de atuação.
Neste trabalho estamos utilizando a variável “Disciplina” como objeto de análise
de Regras de Associação.
Classificação
Uma outra técnica de mineração de dados bastante incentivada é a
Classificação (Classification). Trata-se do processo de busca de um conjunto de
modelos ou funções que identifiquem e descrevam classes ou conceitos. O propósito é
o de viabilizar a utilização de um modelo de predição de uma classe de objetos cujo
pertencimento ainda é desconhecido. A Classificação também é utilizada para
qualificar o conjunto de dados. O modelo obtido é derivado da análise de um conjunto
de dados de treinamento. Tais modelos podem ser representados por várias formas de
regras de classificação: do tipo “if-then”, fórmulas matemáticas ou redes neurais, e
ainda por árvores de decisão (decision trees) que se constituem num tipo largamente
utilizado.
A árvore de decisão é um desenho esquemático da estrutura de uma árvore,
onde cada nó demonstra um teste em um valor de um atributo, cada galho representa
um outcome do teste, e cada folha representa uma classe. As árvores de decisão
podem ser revertidas em regras de classificação.
Como predição, a Classificação é utilizada de forma abrangente na
identificação de tendências.
De acordo com Ham e Kamber (2003), o processo de Classificação está
compreendido em duas etapas (Figura 3.1.2).
Na primeira etapa, um modelo é construído descrevendo um conjunto pré-
determinado de classes e conceitos. O modelo é construído pela análise das tuplas da
base de dados descrita pelos atributos. Assume-se que cada tupla pertença a uma
41
determinada classe, conforme a definição da variável de saída (class label attribute).
Sempre que existe a determinação da variável de saída, a etapa também é conhecida
como “classificação supervisionada” (supervised learning), ou seja, já é dito a qual
classe cada exemplo pertence. No caso contrário (unsupervised learning or clustering),
há necessidade de se descobrir as classes dos dados, utilizando o processo de
Clusterização. Usualmente, o modelo é apresentado sob a forma de regras de
classificação, de árvores de decisão ou de regras matemáticas. As regras são
utilizadas para categorizar os dados e trazer um melhor entendimento sobre o
conteúdo da base de dados.
Na segunda etapa, o modelo é usado para classificação. Primeiramente é
estimado o nível de precisão do modelo, para fins de predição (accuracy). Se o
modelo for considerado aceitável, pode ser usado para predição, ou seja, para
classificar dados futuros nos quais a classe não for conhecida.
Figura 3.1.2: The data classification process
Fonte: Data Mining Concepts and Techniques (HAN; KAMBER, 2001)
42
A MD está sendo considerada como a mais importante fronteira nos sistemas
de bancos de dados e uma das mais promissoras no desenvolvimento interdisciplinar
da indústria da informação. Envolve a integração de técnicas advindas de várias
disciplinas, tais como: técnicas de banco de dados, estatística, aprendizado de
máquina, computação de alto desempenho, reconhecimento de padrões, redes
neurais, processamento de imagens e de sinais, análise de dados espaciais, entre
outras. Este é um ponto bastante positivo tendo em vista que hoje em dia não existem
mais pesquisam encapsuladas numa só área.
Este trabalho limita a consideração da MD sob a perspectiva da análise de
banco de dados, e somente aplicando as técnicas de Regras de Associação e de
Classificação do tipo Supervisionada.
3.2 COMPONENTE ORACLE DATA MINER
“Programa bom tem que ter interface”, os professores costumam repetir.
Quando se exporta os dados para leitura por outro sistema é comum que se precise
corrigir formatos. Também é comum que junto com os dados também se exportem
erros e ocorram problemas de integração. O ambiente único é o grande desafio da
tecnologia da informação. A integração dos sistemas é absolutamente saudável para
os dados. Baseado nesta premissa, foi escolhido o ORACLE Data Miner (ODM) como
ferramenta de mineração de dados, dada a necessidade de um programa integrado à
nossa base de dados em ORACLE. Todas as análises foram feitas de forma acoplada,
em um único ambiente. A decisão nos trouxe o desafio de utilizar uma ferramenta sem
a devida disponibilidade de publicações a respeito. O único livro sobre as técnicas de
mineração de dados aplicadas à ferramenta Oracle Data Mining, editado nos Estados
Unidos, não foi entregue, apesar da antecedência do pedido (Oracle Data Mining and
Search; Ron Hardman; 550 páginas; MC-Graw - Hill Osborne Media; 2008). Apenas os
Helps da ferramenta foram os orientadores e condutores das elaborações e análises
realizadas.
Utilizamos para esta pesquisa a versão 10.2 do ORACLE Data Miner que
disponibiliza nove funções para mineração de dados (model type function).
Transcrevemos a seguir a descrição da funções, conforme informações
disponibilizadas na própria ferramenta ODM (tradução livre):
Anomaly Detection - Detecção de Anomalias
43
Uso: Os padrões binários de algoritmos de classificação supervisionada
requerem a presença de exemplos positivos e negativos para a classe alvo. A
Detecção de Anomalias requer apenas a presença de exemplos de uma única classe-
alvo. Na detecção de outliers, exemplos típicos na distribuição são separados do
exemplo atípico (outlier).
Algoritmo: One-Cass Support Vector Machine
Association Rules - Regras de Associação
Uso: Modelos de associação são frequentemente usados para medir
desempenhos do tipo “market basket analysis” (análise da cesta de compras) para
descobrir relacionamentos ou correlações entre um conjunto de casos (exemplos).
Tais modelos são amplamente usados nas análises de marketing direto, desenho de
catálogos e outros negócios relacionados à tomada de decisão em marketing e
vendas.
Algoritmo: Apriori
Attribute Importance – Importância de Atributo
Uso: Ranqueamento dos atributos de predição através da eliminação da
redundância, irrelevância ou não uniformidade dos atributos. Também identifica quais
atributos podem ter maior influência na construção das predições.
Algoritmo: Minimum Description Lenght
Classification - Classificação
Uso: Em um problema envolvendo classificação, existe um número de casos
(exemplos) e se precisa prever a quais classes pertencem. Os atributos preditores são
compostos por diversos valores possíveis (variáveis independentes) e um atributo alvo
(variável dependente). Cada um dos possíveis atributos-alvo é uma classe passível de
predição.
Algoritmos: Adaptive Bayes Network, Decision Tree, Naive Bayes e Support
Vector Machine
Clustering - Agrupamento
Uso: Na descoberta de grupos naturais (clusters) dentro dos dados. Membros
de um mesmo cluster são similares, são mais próximos deles mesmos do que de
outros clusters. A clusterização também pode ser usada como uma etapa de pré-
processamento dos dados para identificar grupos homogêneos ou para construir
modelos preditivos.
Algoritmos: K-Means e O-Cluster
Feature Extraction – Extração de Destaques
Uso: Criação de um novo conjunto de características através da decomposição
dos dados originais. A feature é a combinação de atributos nos dados que carregam
44
detalhes especiais e que apresentam características de maior realce. A Feature
Extraction possibilita a descrição dos dados com um número de características bem
menor do que na dimensão original. “Feature extraction lets you describe the data with
a number of features far smaller than the number of original dimensions (attributes).”
Algoritmo: Non-Negative Matrix Factorization
Regression – Regressão
Uso: Modelos de Regressão são modelos preditivos. A diferença entre
regressão e classificação é que a regressão tem atributos-alvo numéricos e contínuos,
enquanto a classificação é realizada com dados discretizados ou atributos-alvo
categóricos.
Algoritmo: Support Vector Machine
A Figura 3.2.1 mostra a tela inicial de navegação do Oracle Data Miner, quando
da abertura do “Mining Activities”.
Figura 3.2.1: ODM - Mining Activities
Fonte: ORACLE Data Miner versão 10.2
Na elaboração deste trabalho foram selecionadas duas técnicas de mineração
de dados:
1ª: Regras de Associação: utilizamos o algoritmo “Apriori”, partindo-se de um
atributo conseqüente para no máximo três atributos antecedentes. A Figura 3.2.2
45
mostra a inicialização da ferramenta Oracle Data Miner para aplicação de regras de
associação.
Figura 3.2.2: ODM - Select Mining Activity Type – Association Rules
Fonte: ORACLE Data Miner versão 10.2
2ª: Regras de Classificação: utilizamos o algoritmo “árvores de decisão”,
adotando-se o tipo Supervisionada, uma vez que as classes já eram conhecidas. A
Figura 3.2.3 mostra a inicialização da ferramenta Oracle Data Miner para aplicação de
regras de classificação.
46
Figura 3.2.3 : ODM - Select Mining Activity Type – Classification
Fonte: ORACLE Data Miner versão 10.2
A efetividade quanto à utilização do ORACLE Data Miner (ODM) ficou
evidenciada durante a execução dos trabalhos, tendo em vista a interação do
programa com o usuário e a sua performance. Os resultados obtidos estão apontados
nos capítulos específicos.
47
4 REGRAS DE ASSOCIAÇÃO
Para a criação das regras de associação devem ser sugeridos os níveis de
suporte e confiança do modelo. O suporte indica a freqüência com que os dados
aparecem associados. Logo, suporte alto significa freqüência alta. O suporte é medido
em números decimais. Um suporte igual a 1,0 representa totalidade na freqüência. Já
a confiança indica o grau de certeza na associação dos dados, ou seja, ainda que a
freqüência seja baixa, sempre que os dados aparecem existe associação entre eles. A
confiança é medida em pontos percentuais, logo 100% indica o grau de confiança
total.
Considera-se um nível de suporte de 0,8 e um grau de confiança de 90% como
bons níveis para construção de regras de associação.
Na geração das regras seleciona-se uma variável conseqüente e procura-se
descobrir quais antecedentes podem determiná-la.
As regras são construídas através da busca de associação entre antecedentes
e conseqüentes e nas variações de suporte e confiança.
4.1 CONSTRUÇÃO
O ODM disponibiliza um único algoritmo para a criação de regras de
associação. Trata-se do algoritmo “Apriori”. O Apriori é um algoritmo influente para
mineração. O nome do algoritmo vem do fato de utilizar conhecimento prévio (prior
knowledge) das propriedades de composição e freqüência de itens. (JIAWEI;
KAMBER, 2001).
A proposta da regra de associação é basicamente mostrar quais valores de
variáveis, quando relacionados, podem trazer significado e incrementar determinada
ação. No nosso caso, os valores correspondem às disciplinas do curso de engenharia
e a ação é o abandono do curso.
Buscamos compor as cestas para a criação das regras, com os valores
relativos à variável “Disciplina”, apenas os 32 itens que mais reprovaram (vide 2.4),
em consideração aos seguintes atributos:
Classe da nota: B = Avaliação Suplementar, C = Reprovado e D =
Abandonou (a classe A = Aprovado, não faz parte da base);
48
Classe do tempo: X = até 5 anos e Y = além de 5 anos
Código do curso: (vide 3.3.3);
Coeficiente de rendimento: somatório dos produtos das notas nas
disciplinas cursadas e a carga horária das mesmas, dividido pelo somatório
das cargas horárias.
A seguir apresentamos as regras geradas e os comentários respectivos:
1º MODELO
: Foca “Disciplinas”, considerando a Classe da nota e a Classe
do tempo (Figuras 4.1.1 a Figuras 4.1.5).
Etapa: Indicação da construção das regras
Figura 4.1.1: ODM – Association RulesBuild – 1º Modelo
Fonte: ORACLE Data Miner versão 10.2
49
Etapa: Obtenção das regras
Figura 4.1.2: ODM – Association Rules Get Rules – 1º Modelo
Fonte: ORACLE Data Miner versão 10.2
O Oracle Data Miner criou 15.872 regras. Para que sejam visualizadas é
necessário pressionar “Get Rules”.
50
Etapa: Visualização das regras
Figura 4.1.3: ODM – Association Rules Selection – 1º Modelo
Fonte: ORACLE Data Miner versão 10.2
Na seleção das regras que se quer visualizar, podemos informar quais valores
interessam como “antecedentes” (if) e “consequentes” (then). Deve-se reconfigurar ou
validar os níveis de suporte e confiança das regras a serem resgatadas.
51
Etapa: Obtenção das regras com seleção
Figura 4.1.4: ODM – Association Rules – Selection 2 – 1º Modelo
Fonte: ORACLE Data Miner versão 10.2
A revisão dos critérios é necessária principalmente quando da criação de
muitas regras (15.872 neste modelo). Do contrário fica impossível a obtenção das
regras, o que acarreta uma mensagem de erro. Neste modelo foram escolhidas como
antecedentes as disciplinas: GFI05100 (Física I), GMA04004 (Cálculo IV), GMA04043
(Cálculo I) e GMA06074 (Cálculo II) e foram retirados os valores de suporte e
confiança mínimos requeridos.
52
Etapa: Disponibilização das Regras
Figura 4.1.5: ODM – Association Rules – BUILD – Result - 1º Modelo
Fonte: ORACLE Data Miner versão 10.2
Como os valores mínimos de suporte e confiança foram retirados, o sistema
retornou com as regras que apresentaram suporte e confiança de 100%.
RESULTADO DO 1º MODELO
: Para as 15.872 regras, foram retornadas 100
regras, com suporte e confiança de 100%. Foram gerados 7 valores conseqüentes e,
para cada um deles, foram criadas de 13 a 15 regras (Tabela 4.1.1).
53
Tabela 4.1.1: Regras do 1º Modelo
1º MODELO
DISCIPLINAS (com CLASSENOTA e CLASSETEMPO)
If
(condition)
Then
(association)
If
(condition)
Then (association)
GGM03077
GFI05102
14 regras
GFI05102
GMA06071
15 regras
GMA04004 GGM03077
GMA04043 GMA04004
GMA06071 GMA04043
GMA06074 GMA06074
TCC03063 TCC03063
GFI05102
GGM03077
13 regras
GFI05102
GMA06074
15 regras
GMA04004 GGM03077
GMA04043 GMA04004
GMA06071 GMA04043
GMA06074 GMA06071
TCC03063 TCC03063
GFI05102
GMA04004
14 regras
GFI05102
TCC03063
15 regras
GGM03077 GGM03077
GMA04043 GMA04004
GMA06071 GMA04043
GMA06074 GMA06071
TCC03063 GMA06074
GFI05102
GMA04043
14 regras
GGM03077
GMA04004
GMA06071
GMA06074
TCC03063
Fonte: A autora.
As regras criadas, levando-se em conta a variável Classe da Nota e a variável
Classe do Tempo, foram associadas ao mesmo conjunto de disciplinas, entre si,
conforme listamos a seguir:
GFI05102 – Física Geral e Experimental XX
GGM03077 – Geometria Descritiva VI
54
GMA04004 – Cálculo Diferencial e Integral IV
GMA04043 – Cálculo Diferencial e Integral Aplicado I
GMA06071 – Equações Diferenciais Aplicadas
GMA06074 – Cálculo Diferencial e Integral Aplicado II
TCC03060 – Introdução à Informática
2º MODELO:
Foca “Disciplinas”, considerando o Coeficiente de Rendimento
(Figura 4.1.6).
Etapa: Disponibilização das Regras
Figura 4.1.6: ODM – Association Rules – BUILD – Result – 2º Modelo
Fonte: ORACLE Data Miner versão 10.2
Foram geradas 314 regras nesse 2º modelo. A ordenação das regras pode ser
feita pelos níveis de suporte ou de confiança, conforme o critério de análise. Neste
caso foi feita a ordenação pelo valor de confiança.
RESULTADO DO 2º MODELO
: Para as 314 regras geradas, foram retornadas
100 regras, variando entre os níveis de suporte de 0.76 a 0.11 e os níveis de confiança
entre 96% e 6,6%. Cumpre lembrar que este modelo está considerando o coeficiente
de rendimento, que tem grande intervalo numérico e não foi categorizado. Portanto,
55
dada a variação dos coeficientes de rendimento, os níveis de suporte também são
variados (e não poderiam ser elevados). Para a análise das regras utilizamos como
filtro o nível de Confiança de 67%, resultando em 43 regras. Essas regras
representavam 7 valores conseqüentes e para cada um deles foram criadas de 2 a 11
regras (Tabela 4.1.2).
Tabela 4.1.2: Regras do 2º Modelo
2º MODELO
DISCIPLINAS (com COEFICIENTE DE RENDIMENTO)
If (condition) Then (association) If (condition) Then (association)
GET04021
GAN06118
8 regras
GAN06118
GFI05101
2 regras
GFI05100 GMA06074
GGM02055 GAN06118
GMA04043
11 regras
GGM03077 GET04021
GMA04043 GFI05100
TCC03060 GFI05101
TCC03063 GGM02055
TEC03188 GGM03077
GAN06118
GFI05100
10 regras
GMA06074
GFI05101 GQI04019
GFI05102 TCC03060
GGM02055 TCC03063
GGM03077 TEC03188
GMA04043 GMA04004
GMA06071
3 regras
GMA06074 GFI05100
GQI04019 GFI05102
TCC03060 GAN06118
GMA06074
5 regras
TCC03063 GET04021
GAN06118
GGM02055
3 regras
GFI05100
GFI05100 GFI05101
TCC03060 TCC03063
Fonte: A autora
As associações foram feitas entre 7 valores (disciplinas), sendo que o conjunto
de regras para o valor conseqüente GMA04043 (Cálculo I), com 11 regras neste
exemplo, se associa a maior parte das disciplinas (não todas).
56
Das 43 regras sob análise, selecionamos as regras com suporte acima de
0.589 - dentro do nível de confiança de 67%. A Tabela 4.1.3 traz o resultado.
Tabela 4.1.3: Melhores Regras do 2º Modelo
2º MODELO
DISCIPLINAS (com COEFICIENTE DE RENDIMENTO)
Combinação de Confiança: acima de 67,0% e de Suporte: acima de 0.58
Rule
Id
If (condition)
Then
(association)
Confidence
(%)
Support
(%)
238 TCC03063= 1 AND GET04021= 1 GMA06074= 1 81.8 58.9
185 GFI05100= 1 AND TEC03188= 1 GAN06118= 1 80.0 61.1
298 GFI05102= 1 AND GMA06071= 1 GMA04004= 1 76.2 69.8
243 GFI05100= 1 AND GFI05101= 1 GMA06074= 1 72.9 76.4
186 GAN06118= 1 AND GFI05101= 1 GMA04043= 1 72.5 63.3
211 GMA06074= 1 AND GAN06118= 1 GMA04043= 1 72.5 63.3
297 GMA04004= 1 AND GFI05102= 1 GMA06071= 1 71.1 69.8
175 GMA06074= 1 AND GAN06118= 1 GFI05100= 1 70.0 61.1
163 GAN06118= 1 AND GFI05101= 1 GFI05100= 1 67.5 58.9
190 GMA06074= 1 AND GAN06118= 1 GFI05101= 1 67.5 58.9
189 GAN06118= 1 AND GFI05101= 1 GMA06074= 1 67.5 58.9
Fonte: A autora
Verificamos as citações a cada disciplina, nas 11 regras selecionadas, e
encontramos também 11 disciplinas associadas neste modelo. Segue a descrição das
disciplinas, com o devido ranking de associações:
GAN06118 – Álgebra Linear Aplicada = 7 associações
GMA06074 – Cálculo Diferencial e Integral Aplicado II = 6 associações
GFI05101 – Física Geral e Experimental XIX = 5 associações
GFI05100 – Física Geral e Experimental XIII = 4 associações
GMA04004 – Cálculo Diferencial e Integral IV = 2 associações
GMA04043 – Cálculo Diferencial e Integral Aplicado I = 2 associações
GMA06071 – Equações Diferenciais Aplicadas = 2 associações
GFI05102 – Física Geral e Experimental XX = 2 associações
GET04022 – Estatística XI = 1 associação
TCC03063 – Programação de Computadores III = 1 associação
TEC03188 – Metodologia Científica para Engenharia = 1 associação
57
3º MODELO: Foca “Disciplinas”, considerando o Curso (Figura 4.1.7).
Etapa: Disponibilização das regras
Figura 4.1.7: ODM – Association Rules – BUILD – Result – 3º Modelo
Fonte: ORACLE Data Miner versão 10.2
Na etapa de obtenção das regras do 3º modelo, para que as mesmas fossem
disponibilizadas, foram retirados os níveis de suporte e confiança. E como foram
geradas 15.476 regras, o sistema retornou apenas com as regras que apresentaram
suporte e confiança de 100%.
RESULTADO DO 3º MODELO
: Para as 15.476 regras, foram retornadas 100
regras, com suporte e confiança de 100%. Foram gerados 7 valores conseqüentes.
Para cada um dos valores conseqüentes foram criadas de 13 a 15 regras, associadas
ao mesmo conjunto de disciplinas (as 7 disciplinas entre si). As disciplinas que fazem
parte das regras que consideram a variável “Curso” são as seguintes:
GFI05101 – Física Geral e Experimental XIX
GFI05102 – Física Geral e Experimental XX
GMA04043 – Cálculo Diferencial e Integral Aplicado I
GMA06071 – Equações Diferenciais Aplicadas
GMA06074 – Cálculo Diferencial e Integral Aplicado II
58
TCC03059 – Introdução aos Métodos Numéricos
TCC03063 – Programação de Computadores III
CONSIDERAÇÕES SOBRE OS MODELOS DE REGRAS DE ASSOCIAÇÃO
O 1º e o 3º modelos trouxeram apenas regras com níveis totais de confiança e
suporte, ambas apresentando 7 valores conseqüentes, e as disciplinas por si já
formavam um padrão. Já o 2º modelo trouxe regras de todos os níveis de suporte e
confiança, principalmente porque focava um atributo com valores muito diversificados,
sem categorização. Na consolidação do resultado dos modelos, verificamos que as
disciplinas em destaque continuam sendo praticamente as mesmas, apesar de termos
32 disciplinas na nossa base final.
Seguem as disciplinas recorrentes, considerando-se os três modelos de
Regras de Associação criados:
GFI05102 – Física Geral e Experimental XX = nos 3 modelos
GMA04043 – Cálculo Diferencial e Integral Aplicado I = nos 3 modelos
GMA06071 – Equações Diferenciais Aplicadas = nos 3 modelos
GMA06074 – Cálculo Diferencial e Integral Aplicado II = nos 3 modelos
GFI05101 – Física Geral e Experimental XI = em 2 modelos
GMA04004 – Cálculo Diferencial e Integral IV = em 2 modelos
TCC03063 – Programação de Computadores III = em 2 modelos
A partir do conhecimento explicitado nos modelos gerados, podemos
considerar que as disciplinas listadas como recorrentes sugerem padrões de
associação no que se refere ao abandono dos cursos de engenharia.
59
5 CLASSIFICAÇÃO
Como já citado neste trabalho, a Classificação é amplamente utilizada quando
se precisam explicitar regras que suportem um padrão descritivo ou que sustentem as
predições de classes que agrupam casos (exemplos) a partir de um alvo (target).
Dentre os atributos da base deve ser selecionado um atributo, a título de
variável de saída, que vem a ser o target da construção da regra. A variável de saída,
ou target, deve ser categórica. Conforme as regras forem geradas, eliminam-se as
regras que não tiverem relevância ou apresentarem baixa relevância, com base no
conhecimento sobre o assunto.
As regras construídas podem ser do tipo “surpreendentes”, ou seja, padrões
dos quais não se tinha previsão. Também podem ser do tipo “acionáveis”, porque
implicam em uma ação, a partir da constatação julgada oportuna por um especialista
do negócio em questão. (LIU, 2000)
5.1 CONSTRUÇÃO
Dos quatro algoritmos disponibilizados pelo ODM, optamos por gerar o
classificador através do algoritmo “árvore de decisão”, porque promove um
entendimento maior e viabiliza a construção de regras.
Na construção das regras foram utilizados os atributos:
Código da disciplina: apenas a lista das 32 disciplinas que mais reprovam;
Classe da nota: B = Avaliação Suplementar, C = Reprovado e D =
Abandonou (a classe A = Aprovado, não faz parte da base);
Classe do tempo: X = até 5 anos e Y = além de 5 anos (tomando-se como
base o tempo médio de permanência nos cursos, conforme os critérios da
UFF: vide Tabela 2.3);
Código do curso: (vide Quadro 2.2);
Coeficiente de rendimento: somatório dos produtos das notas nas disciplinas
cursadas e a carga horária das mesmas, dividido pelo somatório das cargas
horárias.
60
A seguir apresentamos as principais análises geradas e os comentários
respectivos. No primeiro exemplo, demonstraremos o passo-a-passo do ODM para a
construção da Classificação.
1ª ANÁLISE:
DISCIPLINAS e CURSOS (Figuras 5.1.1 a 5.1.8).
Etapa: Seleção dos atributos a serem considerados e da variável de saída, alvo
ou target.
Figura 5.1.1: ODM – Classification - Review Data Usage Settings – 1ª análise
Fonte: ORACLE Data Miner – versão 10.2
A ferramenta exibe todos os atributos da base de dados. A indicação em “Input
representa os atributos que devem ser considerados para análise: CODCURSO e
CODDISCIPLINA, no caso. A indicação em “Target” representa o foco da análise, ou
seja, a variável de saída que está sendo colocado como alvo na descoberta do
conhecimento: CODDISCIPLINA, no caso.
61
Etapa: Denominação da regra de classificação
Figura 5.1.2 : ODM – Classification – Activity Name – 1ª análise
Fonte: ORACLE Data Miner – versão 10.2
Nesta etapa é escolhido um nome para a análise que está sendo gerada, assim
como é registrado um comentário que explique os atributos escolhidos e o que se
espera obter. Nesse momento, pode-se mencionar o valor escolhido da variável de
saída para teste da análise (valor que será informado na etapa seguinte). No caso, foi
escolhida a disciplina Cálculo I.
Etapa: Escolha do valor da variável de saída que melhor testa o modelo.
Figura 5.1.3: ODM – Classification – Select Preferred Target Value – 1ª análise
Fonte: ORACLE Data Miner – versão 10.2
Conforme comentado no parágrafo anterior, esta etapa representa a seleção
do valor da variável de saída que melhor testa a análise: foi escolhida a disciplina
GMA04043 - Cálculo Diferencial e Integral Aplicado I.
Etapa: Disponibilização do resultado da análise
62
Figura 5.1.4 : ODM – Classification – BUILD – Result – 1ª análise
Fonte: ORACLE Data Miner – versão 10.2
Nesta etapa, o ODM apresenta os estágios da análise (Sample / Split / Build /
Test Metrics) e disponibiliza os resultados (Result).
Etapa: Apresentação da Árvore construída
Figura 5.1.5 : ODM – Classification – Tree (nível 0: true) – 1ª análise
Fonte: ORACLE Data Miner – versão 10.2
63
Foram geradas 2984 casos. Observa-se que o nível de suporte se mantém
proporcional nas 3 primeiras regras: 0,8006 para 9 cursos; 0,6582 para 8 cursos;
0,5241 para 5 cursos. Na primeira regra, o curso 41 (Eng. de Telecomunicações) foi o
único valor não considerado, significando que o mesmo não faz parte do padrão de
80% na freqüência observada. Já na segunda regra excetua-se também o curso 42
(Eng. de Produção), também significando que na frequência de 65,8% os cursos 41 e
42 não são encontrados. Em todas as regras verificam-se níveis de confiança
inexpressivos, podendo significar que a identificação do curso foi irrelevante para esta
análise.
Na representação da variável de saída (Target Values), feita em gráfico de
colunas, vemos a disposição quantitativa das disciplinas, de acordo com a regra
selecionada na Árvore demonstrada na figura anterior.
Etapa: Representação das Folhas da Árvore
Figura 5.1.6 : ODM – Classification – Tree (leaves only) – 1ª análise
Fonte: ORACLE Data Miner – versão 10.2
Através da observação das Folhas, tendo a disciplina GMA04043 (Cálculo I)
como foco, observa-se a seguinte variação de suporte: 0,1994 para o curso 41 (Eng.
de Telecomunicações); 0,1424 para o curso 40 (Eng. Mecânica); 0,1357 para o curso
43 (Engenharia Agrícola); 0,1210 para o curso 38 (Eng.Elétrica) e 0,1160 para o curso
43 (Eng. Agricola). Entretanto, é interessante observar que para o curso 42 (Eng. de
Produção) o resultado da análise trouxe como foco a disciplina GFI05100 (Física Geral
64
e Experimental I) com um um suporte de 14,24%, o que pode significar uma relevância
maior da disciplina especificamente para a Eng. de Produção. Entretanto, o baixo nível
de confiança em todos as regras desta análise reforça a inexpressividade da
consideração do curso.
Para o gráfico de colunas selecionamos a regra explicitada para o valor
GFI05100 (Física Geral e Experimental I): o nível de suporte se mantém em 13,4%
para os cursos 39 (Engenharia Metalúrgica), 45 (Engenharia de Produção – Volta
Redonda) e 46 (Engenharia Metalúrgica – Volta Redonda). Porém, como os cursos 45
e 46 só se iniciaram 2001, a ênfase do suporte está no curso 39. Importante também
observar que essa regra apresenta o maior nível de confiança do modelo: 30,25%
(folha 14).
Etapa: Nível de confiança como Modelo de Predição
Figura 5.1.7: ODM – Classification – Results (Predictive Confidence) – 1ª análise
Fonte: ORACLE Data Miner – versão 10.2
Nesta etapa, o modelo de predição é comparado ao método Naive Bayes.
Verifica-se que o modelo criado não apresenta desempenho superior ao método.
65
Etapa: Demonstração da acurácia do modelo, conforme a variável de saída:
Figura 5.1.8: ODM – Classification – Results (Accuracy) – 1ª análise
Fonte: ORACLE Data Miner – versão 10.2
Com relação à precisão, observa-se que o modelo criado só dá garantias
quanto às disciplinas GMA04043 (63,73% para predição) e GFI05100 (36,43%).
66
2ª ANÁLISE: DISCIPLINAS com CLASSE DA NOTA (Figura 5.1.9).
Etapa: Apresentação da Árvore construída
Figura 5.1.9: ODM – Classification – Árvore da 2ª análise
Fonte: ORACLE Data Miner – versão 10.2
Nesta análise, também foi dado foco à disciplina GMA04043 (Cálculo I). Foram
criadas 2 regras, uma para as Classes B e D (suporte de 38%, apontando para a
disciplina GFI05100 (Física I) e outra para a Classe C (suporte de 62%, também
voltada para a GMA04043). Pela sua frequência (suporte de 0,62), destacamos a
segunda regra que indica que a disciplina GMA04043 leva à classe C (nota abaixo de
4,0) significando reprovação sem direito à verificação suplementar.
67
3ª ANÁLISE:
DISCIPLINAS com CLASSE DA NOTA e CURSOS (Figuras
5.1.10 e 5.1.11)
Etapa: Apresentação da Árvore
Figura 5.1.10: ODM – Classification – Árvore da 3ª análise
Fonte: ORACLE Data Miner – versão 10.2
Nesta análise, também foi dado foco à disciplina GMA04043 (Cálculo I).
Verificam-se os mesmos resultados quando das classificações feitas separadamente,
por curso e por classe nota. Mantém-se a observação de irrelevância da variável
“curso” considerando-se as métricas de suporte e confiança. Conforme se observa nas
regras de classificação, todos os cursos da graduação de engenharia apresentam o
mesmo padrão com relação às disciplinas que mais reprovam.
68
Etapa: Demonstração da exatidão do modelo, conforme a variável de saída:
Figura 5.10.11: ODM – Classification – Accuracy – 3ª análise
Fonte: ORACLE Data Miner – versão 10.2
Em termos de exatidão, o modelo dá ênfase às disciplinas GMA04043 (Cálculo
I = 44,41%), GFI05100 (Física I = 42,01%) e GAN06118 (Álgebra Linear = 11,36%).
69
4ª ANÁLISE:
DISCIPLINAS e CLASSE DO TEMPO (Figuras 5.10.12 a
5.10.18).
Etapa: Apresentação da Árvore (nível 0)
Figura 5.1.12: ODM – Classification – Árvore da 4ª análise
Fonte: ORACLE Data Miner – versão 10.2
Nesta análise, manteve-se o foco na disciplina GMA04043 (Cálculo I).
Na classificação levando-se em conta a classe relativa ao tempo de
permanência do aluno, no nível 0, temos novamente a distribuição das disciplinas,
com a criação de apenas 2 regras, uma para X (até 5 anos de permanência) e uma
para Y (além de 5 anos). Para a Classetempo X (até 5 anos) encontramos um nível de
0,7872 de suporte.
70
Etapa: Apresentação da Árvore (Regra 1)
Figura 5.1.13: ODM – Classification – Árvore da 4ª análise – Regra 1
Fonte: ORACLE Data Miner – versão 10.2
Destacamos no gráfico a regra 1, criada para a Classetempo Y (além de 5
anos), aparecendo a disciplina GMA04004 (Cálculo Diferencial e Integral IV) como a
mais representativa do abandono dos alunos depois de 5 anos de curso (suporte de
0,2128).
Etapa: Apresentação da Árvore (Regra 2)
Figura 5.1.14: ODM – Classification – Árvore da 4ª análise – Regra 2
Fonte: ORACLE Data Miner – versão 10.2
71
Na regra 2, criada para a Classetempo X, retorna a disciplina GMA04043
(Cálculo Diferencial e Integral I) como valor principal. Interessante observar a
redistribuição das disciplinas no gráfico de colunas (target values).
Etapa: Configuração da Árvore
Figura 5.1.15: ODM – Classification – Build Setting - 4ª análise
Fonte: ORACLE Data Miner – versão 10.2
Observamos em Build Settings os parâmetros adotados na configuração usada
na construção da árvore.
Etapa: Nível de confiança como Modelo de Predição
Figura 5.1.16: ODM – Classification – 4ª análise
Fonte: ORACLE Data Miner – versão 10.2
72
Novamente comparado ao modelo Naive Bayes, o modelo não apresenta
resultados superiores.
Etapa: Demonstração da exatidão do modelo, conforme a variável de saída:
Figura 5.1.17: ODM – Classification – Accuracy 4ª análise
Fonte: ORACLE Data Miner – versão 10.2
Em termos de precisão, este modelo só oferece garantias para as disciplinas
GMA04004 (Geometria Analítica = 77,14%) e GMA04043 (Cálculo I = 97,97%).
73
Etapa: Demonstração do desempenho do classificador utilizando o gráfico ROC
Figura 5.1.18: ODM – Classification – ROC - 4ª análise
Fonte: ORACLE Data Miner – versão 10.2
Nesta figura indica-se a demonstração do desempenho do classificador
utilizando o gráfico ROC correspondente ao modelo.
74
5º ANÁLISE:
DISCIPLINAS com CLASSE DA NOTA e CLASSE DO TEMPO
(Figura 5.1.19).
Etapa: Apresentação da Árvore
Figura 5.1.19: ODM – Classification – 5ª análise
Fonte: ORACLE Data Miner – versão 10.2
Continuamos com o foco na disciplina GMA04043 (Cálculo I). Na comparação
das Disciplinas com classenota e classetempo, chamamos atenção para a regra 2
(folha 5) que associa a Classenota C à Classetempo X, com um suporte de 0,4745.
75
6ª ANÁLISE:
CLASSE DA NOTA e DISCIPLINAS (Figuras 5.1.20 a 5.1.22).
Etapa: Apresentação da Árvore
Figura 5.1.20: ODMClassification Árvore - 6ª análise
Fonte: ORACLE Data Miner – versão 10.2
Para o alvo Classe da Nota foi dado o valor C (notas abaixo de 4,0) como foco.
Esta análise traz 2 grupos de disciplinas que levam à reprovação: um grupo com
suporte de 0,6283 e confiança de 61,66% e outro com suporte de 0,3717 e confiança
de 64,61%.
76
Etapa: Apresentação da Árvore (nível 0)
Figura 5.1.21: ODMClassification Árvore - 6ª análise – nível 0
Fonte: ORACLE Data Miner – versão 10.2
No gráfico, verifica-se a expressividade da classe D (disciplinas sem nota =
35% da base) e a baixa incidência da classe B (verificação suplementar = 2,5%). As
incidências na classe B não foram objeto de análise porque o aluno posteriormente
recebe uma nota correspondente à segunda avaliação, o que o insere na classe C
(reprovação = 62,5%) ou na classe A (aprovação), que foi expurgada da base final.
77
Etapa: Demonstração da acurácia do modelo, conforme a variável de saída
Figura 5.1.22: ODMClassification Árvore - 6ª análise - Acurácia
Fonte: ORACLE Data Miner – versão 10.2
A análise demonstra 100% de assertividade para a Classe C (reprovados),
como modelo de predição.
78
7ª ANÁLISE:
CLASSE DO TEMPO e DISCIPLINAS (Figuras 5.1.23 a 5.1.25)
Etapa: Apresentação da Árvore
Figura 5.1.23: ODMClassification Árvore - 7ª análise
Fonte: ORACLE Data Miner – versão 10.2
Nesta análise por Classe de Tempo, apesar de ter sido escolhido o valor Y
para foco (após 5 anos), verifica-se predominância da Classe X (até 5 anos) com
suporte de 0,6639 e confiança de 95,86%, o que representa absoluta relevância em
termos de interessabilidade.
79
Etapa: Apresentação da Árvore – Regra 1
Figura 5.1.24: ODMClassification Árvore - 7ª análise – Regra 1
Fonte: ORACLE Data Miner – versão 10.2
Na Regra 1 (Folha 3) verifica-se que a classe Y (além de 5 anos) está afeta às
disciplinas listadas com confiança de 0,6887 - apesar do baixo suporte de 22,38%.
Etapa: Apresentação da Árvore – Regra 2
Figura 5.1.25: ODMClassification Árvore - 7ª análise – Regra 2
Fonte: ORACLE Data Miner – versão 10.2
80
Na Regra 2 (Folha 6) verifica-se um altíssimo nível de confiança (97,15%), com
suporte de 0,
5654, associado à classe X (até 5 anos). A relação é estabelecida às
disciplinas: GAN06118 (Álgebra Linear), GFI05100 (Física I), GGM02055 (Introdução à
Geometria), GMA04043 (Cálculo I) e TCC03060 (Introdução à Informática).
Lembrando que estamos utilizando para a construção das regras apenas os dados
referentes aos “Cancelados”, ou seja, alunos que se evadiram, observa-se que as
disciplinas convergem para o elenco já trazido pelas análises e modelos anteriores.
Considerações sobre as análises das regras de classificação
Como consideração sobre a atividade de Regras de Classificação, aplicada na
base de dados preparada, podemos mencionar que:
A modalidade do curso de engenharia não interfere com relevância
no que se
refere às disciplinas que mais reprovam (e acarretam em abandono).
Os alunos que abandonam os cursos, o fazem no prazo de 5 anos em 79%
dos casos.
A incidência de reprovação na disciplina (classe C = nota menor que 4,0)
corresponde a 62,5% do total dos casos, sendo também considerável os
casos em que a avaliação não é sequer realizada (classe D = disciplina sem
nota) que representa 35% dos casos observados.
As disciplinas que aparecem como recorrentes nas regras construídas,
representando aquelas que mais causam reprovação nos cursos de
Engenharia da UFF, estão listadas na Tabela 5.1.1 a seguir.
81
Tabela 5.1.1 – Disciplinas recorrentes nas Regras de Classificação
Código e descrição da disciplina
Target
ClasseNota
( C )
ClasseTempo
( X )
GAN06118 Álgebra Linear Aplicada 9 9
GFI05100 Física Geral e Experimental XVIII 9 9
GFI05101 Física Geral e Experimental XIX 9
GFI05102 Física Geral e Experimental XX 9
GFI05103 Física Geral e Experimental XXI 9
GGM02055 Introdução à Geometria Descritiva 9
GMA04004 Cálculo Diferencial e Integral IV 9
GMA04043 lculo Diferencial e Integral Aplicado I 9 9
GMA06071 Equações Diferenciais Aplicadas 9
GMA06074 Cálculo Diferencial e Integral Aplicado II 9 9
TCC03060 Introdução à Informática 9
TCC03063 Programação de Computadores III 9 9
TEC03188 Metodologia Científica para Engenharia 9
Melhores medidas de
interessabilidade encontradas
Suporte
0,63 0,66
Confiança
62% 96%
Fonte: A autora
As disciplinas assinaladas formam o padrão descoberto nas regras de
classificação com o melhor resultado de suporte e confiança, na consideração da
Classe da Nota (com foco na variável “C”: reprovação por nota abaixo de 4,0) – 0,63
de suporte e 62% de confiança – e da Classe do Tempo (com foco na variável “X”:
abandonos até 5 anos) – 0,66 de suporte e 96% de confiança.
Como vimos ao longo deste capítulo, quando construímos uma regra de
classificação, além de escolhermos a variável de saída (target) também precisamos
indicar o valor do target mais interessante para a pesquisa. Nas regras focadas em
Disciplinas, variamos o target nos valores: GFI05100 (Física I), GMA04004 (Cálculo
IV), GMA04043 (Cálculo I) e recebemos de volta regras com diferentes níveis de
suporte e confiança.
Já nas regras com foco na Classe da Nota, focando no valor C (abaixo de 4,0 =
reprovados) e na Classe do Tempo, focando no valor X (abandonos no prazo de 5
anos) conseguimos êxito no retorno de regras com níveis de suporte e confiança
interessantes em relação à base de dados trabalhada. As disciplinas que apareceram
nas duas análises, nos melhores resultados em termos de interessabilidade, foram
GAN06118 (Álgebra Linear), GFI05100 (Física I), GMA04043 (Cálculo I) e GMA06074
(Cálculo IV).
82
Além das disciplinas citadas no parágrafo anterior, também apareceram as
disciplinas: GFI05101 (Física II), GFI05102 (Física III), GFI05103 (Física IV),
GGM02055 (Introd. à Geometria), GMA06071 (Equações Diferenciais), TCC03060
(Introd. à Informática), TCC03063 (Programação de Computadores) e TEC03188
(Metodologia Científica para Engenharia), conforme demonstramos na Tabela 5.1.1.
83
6 DESCOBERTA DO CONHECIMENTO
Este capítulo fala do conhecimento revelado através da mineração dos dados
contidos na base de dados exaustivamente pesquisada, ou seja, responde a pergunta:
“em que os resultados dos modelos das Regras de Associação e das análises das
Regras de Classificação, ora desenvolvidos, podem subsidiar o entendimento da
situação-problema trazida neste trabalho?”
Como foi citado na Introdução da dissertação, e também em “Massa de Dados”
(capítulo 2), não tivemos acesso aos dados pessoais dos alunos da base, nem
tampouco aos dados de ordem socioeconômica. Assim, o trabalho ficou limitado à vida
curricular do aluno.
Efetuamos a categorização dos atributos correspondentes aos códigos de
deleção (motivo/tipo de afastamento do aluno), que resultou na criação da Classe
Situação, com as variáveis A/F/C, respectivamente: Ativo/Formado/Cancelado. Dentre
as informações que se conseguiu vislumbrar na base de dados fornecida, a variável
Disciplina mostrou ser o único caminho para compreendermos o abandono dos cursos
de graduação de Engenharia da UFF. E para a visualização das disciplinas no
contexto curricular, também foram categorizados os atributos referentes:
às notas obtidas, criando-se a Classe da Nota, com as variáveis (A/B/C/D):
Aprovado / Em verificação suplementar / Reprovado / Desistiu (sem nota);
ao tempo de permanência do aluno no curso, criando-se a Classe do
Tempo, com as variáveis (X/Y): Até 5 anos e além de 5 anos,
respectivamente.
Através da análise consolidada dos resultados das regras construídas, uma vez
limitados a base de dados estudada, cumpre-nos deixar registrados os seguintes
pontos:
O tipo do Curso não mostrou qualquer expressividade nas análises quanto ao
motivo do abandono, sugerindo, portanto, que o abandono na graduação de
engenharia da UFF compartilha a mesma causa, muito embora
estatisticamente os cursos apresentem diferentes percentuais de evasão.
84
Configurando a “Classenota D” (inscrição na disciplina, porém sem nota
lançada no Diário, sugerindo que o aluno abandonou o curso antes de fazer a
avaliação da disciplina) encontramos 27 disciplinas. Cerca de 64,5% se
concentram nas 6 disciplinas a seguir, por ordem de grandeza: GFI05100
(Física I), GMA04043 (Cálculo I), TCC03060 (Introd. à Informática),
GGM02055 (Introd. à Geometria), GAN06118 (Álgebra Linear ) e GMA04004
(Cálculo II).
Seguem as disciplinas que aparecem na consolidação das Regras de
Associação e de Classificação:
GAN06118 – Álgebra Linear Aplicada
GFI05100 – Física Geral e Experimental XIII
GFI05101 – Física Geral e Experimental XIX
GFI05102 – Física Geral e Experimental XX
GGM02055 – Introdução à Geometria Descritiva
GMA04004 – Cálculo Diferencial e Integral IV
GMA04043 – Cálculo Diferencial e Integral Aplicado I
GMA06071 – Equações Diferenciais Aplicadas
GMA06074 – Cálculo Diferencial e Integral Aplicado II
TCC03060 – Introdução à Informática
TCC03063 – Programação de Computadores III
Lembrando que estamos trabalhando com uma base apenas de alunos
cancelados, podemos argumentar que as disciplinas mostradas no parágrafo anterior
contribuem para o abandono dos cursos, ou seja, para a evasão na graduação de
engenharia, tema deste trabalho.
Cumpre mencionar que o caráter obrigatório de 117 disciplinas, e
principalmente o critério de pré-requisito, criam uma interdependência entre as
disciplinas que pode engessar o desenvolvimento do curso.
Em importância bem maior, está a recorrência nas reprovações nas disciplinas
explicitadas neste trabalho. Se o aluno é reprovado sucessivas vezes em uma
disciplina considerada “carro-chefe” do curso, podemos ver aí a necessidade de criar
condições para a preparação do aluno para a disciplina. Pode estar faltando o
entendimento básico sobre a natureza da disciplina, o que prejudica o seu
desenvolvimento. Sendo assim, a implementação de uma disciplina curricular, ou a
sistematização de aulas de apoio ou monitoria, pode promover o nivelamento dos
85
alunos e consequentemente reduzir o número de reprovações nas disciplinas mais
clássicas do curso de engenharia.
.
86
7 CONCLUSÕES
Sonhar é imaginar horizontes de possibilidade; sonhar
coletivamente é assumir a luta pela construção das condições
de possibilidade. (FREIRE, 2001).
Procuramos nesse trabalho contribuir para a criação de possibilidades de
solução para o grave problema da evasão no ensino superior no nosso país.
O trabalho se justificou, além da grandiosidade do tema Educação, devido à
implementação pelo governo federal do “Programa de Apoio a Planos de
Reestruturação e Expansão das Universidades Federais” - REUNI. Algumas questões
do programa estão de mãos dadas com a necessidade de transformação de
paradigmas relativos ao ensino nessa transição para a nova sociedade do
conhecimento. “Vivemos um daqueles momentos singulares da história em que
grandes transformações ocorrem, levando embora antigas crenças e trazendo novos
valores.” (CAVALCANTI et al., 2001). Neste novo contexto, a reflexão sobre a
educação está conciliada a novos métodos, abordagens, espaços e tempos. Nesse
sentido podemos citar: ampliação das conotações de ensino e de pesquisa, recriação
de currículos, atualização de metodologias e tecnologias de ensino-aprendizagem,
articulação da educação superior com a educação básica, profissional e tecnológica.
Focados em um banco de dados disponibilizado pela Universidade Federal
Fluminense – UFF, realizamos inicialmente um trabalho de limpeza e preparação dos
dados. Nessa primeira etapa, a massa de dados passou por redimensionamentos e
redução de variáveis até chegarmos ao universo das matrículas que:
ocorreram no período de 1995 a 2005
eram relativas ao ingresso por vestibular
constavam em códigos de deleção respectivos a cancelamento
continham inscrição em disciplinas obrigatórias
obtiveram nas disciplinas uma nota inferior a 6,0 ou ficaram sem nota
correspondiam às 32 disciplinas com o maior número de reprovações.
Com base nesse contexto escolar, sem dispor de dados pessoais dos alunos
nem de informações socioeconômicas, aplicamos as técnicas de mineração de dados
relativas a Regras de Associação e a Classificação do tipo “supervisionada”, uma vez
87
que tratamos somente uma classe específica de alunos - os que abandonaram o curso
de graduação de engenharia.
Lições aprendidas
É comum obtermos muitos mais dados sobre o que é bom, normal, ditoso e
poucos dados do que é ruim. No caso desse trabalho, optamos por registrar as
dificuldades encontradas na realização da pesquisa sob a forma de lições aprendidas,
torcendo para que contribuam para outros pesquisadores.
Algumas situações e decisões prejudicaram o andamento do trabalho, foram
causadoras de retrabalho e perda de tempo. Outras serviram apenas para constatar a
relação entre as necessidades da teoria e as dificuldades da prática. A verdade,
entretanto, é que todas elas acabaram funcionando como um desafio gerador de
grande aprendizado. Podemos citar:
A etapa de transformação dos arquivos texto, para posterior conversão para
um banco de dados, foi muito trabalhosa e tomou mais tempo do que o
estimado. (É recomendável que o pesquisador faça uma análise prévia da
massa de dados a ser trabalhada, antes da elaboração de um cronograma ou
plano de trabalho);
O encontro de informações sobre os atributos foi prejudicado porque algumas
tabelas originais passaram por processo de fusão ou foram reconfiguradas.
(O ideal é manter contato constante com o Administrador fornecedor dos
dados, visando conhecer eventuais modificações);
Alguns dados aparentaram desatualizações ou apresentaram problemas de
inconsistência. (Convém que se assegure quanto ao estado de atualização
dos dados recebidos);
A ferramenta de mineração de dados definida não dispunha de qualquer
literatura a respeito; apenas o Help foi utilizado. (A menos que se esteja em
busca de pioneirismo, o melhor é procurar ferramentas documentadas e que
já sejam de domínio de especialistas da área);
A escolha inadequada de atributo/variável ou mesmo de linha de pensamento
ocasionaram a elaboração equivocada de visões e de novas bases de dados,
causando muito retrabalho. Esses realmente foram os piores momentos:
“quilos de análise indo pro lixo”. (Elaborar um conjunto de idéias, analisando
o desdobramento das decisões antes de se iniciar a aplicação das técnicas
de mineração de dados, sem dúvida, racionaliza o trabalho);
88
As etapas da metodologia não se seguiram fielmente. O refazer de etapas e
as idas e vindas foram regulares. Podemos dizer que o trabalho se deu mais
“em rede” do que “em cadeia”. Certamente isso faz parte da dinâmica de
análise. Dá mais trabalho, entretanto, estimula a recriação, no sentido de
vencer cada novo desafio.
Descoberta do conhecimento
Dentro das 3 classes de Situação criadas: Ativos / Formados / Cancelados
(vide Tabela 2.3.1.4) trabalhamos na base final de dados apenas com a situação
Cancelados. É importante lembrar que tais matrículas canceladas correspondem à
evasão de fato, uma vez que os demais casos de cancelamentos foram expurgados
da base.
Na base final de Cancelados, composta por 970 casos (20% de um total de
4.830 matrículas), a Engenharia de Produção apresenta o menor índice de evasão:
12%, seguida pela Engenharia Civil: 18%; Telecomunicações: 20%; Elétrica: 23%,
Agrícola: 25%; Mecânica: 26% e a Engenharia Metalúrgica, que representa o maior
índice de evasão: 32%.
Na utilização das técnicas de mineração de dados, o foco das pesquisas
esteve nas disciplinas obrigatórias que continham o maior número de reprovações.
As comparações foram feitas considerando-se as variáveis referentes ao curso
de engenharia (atributo “curso”), à nota obtida nas disciplinas (atributo “classenota”) e
ao tempo de permanência do aluno até o cancelamento da matrícula (atributo
“classetempo”).
Com relação às Regras de Associação, criadas através do algoritmo “Apriori”,
os resultados retornaram semelhantes.
Com relação às análises por Classificação do tipo supervisionada, criadas
através do algoritmo “Árvore de Decisão”, conseguimos encontrar regras do tipo
acionáveis. O fato mais relevante foi a obtenção do conjunto de disciplinas recorrentes
na consolidação das regras. São elas, por ordem de representatividade com relação
ao número de reprovações:
1. GMA04043 – Cálculo Diferencial e Integral Aplicado I
2. GFI05100 – Física Geral e Experimental XIII
3. GAN06118 – Álgebra Linear Aplicada
4. GGM02055 – Introdução à Geometria Descritiva
5. TCC03060 – Introdução à Informática
6. TCC03063 – Programação de Computadores III
89
7. GMA06071 – Equações Diferenciais Aplicadas
8. GMA06074 – Cálculo Diferencial e Integral Aplicado II
9. GMA04004 – Cálculo Diferencial e Integral IV
10. GFI05102 – Física Geral e Experimental XX
11. GFI05101 – Física Geral e Experimental XIX
Ratificando que a base de dados final só contém matrículas canceladas,
argumentamos que as disciplinas elencadas respondem pela reprovação de 70% dos
alunos, o que pode ter direcionado os mesmos para o abandono do curso de
graduação de Engenharia.
Outras análises podem significar descoberta de conhecimento, se forem
capazes de direcionar ações corretivas ou adaptativas:
A disciplina GMA04043 – Cálculo Diferencial e Integral Aplicado I ficou
evidenciada como a maior “vilã curricular”, seguida pela 1ª disciplina de
Física: GFI05100 – Física Geral e Experimental XIII. Como tais disciplinas
são de caráter essencial e vêm sofrendo sucessivas reprovações, cabe
considerar a possibilidade da criação de uma disciplina curricular, que sirva
de base para as disciplinas, ou da sistematização de aulas de apoio do tipo
monitoria. Tal medida pode vir a promover o nivelamento dos alunos através
do entendimento básico sobre a natureza das disciplinas, e assim, minimizar
as reprovações nas disciplinas clássicas do curso de engenharia. Além de
melhorar as estatísticas, a medida certamente contribui para a auto-estima
dos alunos e a conseqüente permanência deles no curso.
O critério de disciplinas como pré-requisito gera um alto grau de
interdependência das disciplinas obrigatórias, conforme mostrado na Figura
2.4.3, podendo causar um afunilamento na realização dos cursos. Exemplos:
a disciplina GMA06074 é pré-requisito para outras seis disciplinas; a
disciplina GFI05103 tem quatro disciplinas como pré-requisito para ela.
O tipo do Curso não mostrou qualquer expressividade nas análises,
significando que toda a graduação de engenharia compartilha da mesma
dificuldade curricular. A pesquisa mostrou que, apesar do índice de
cancelamento sofrer variação conforme o curso, as disciplinas que levam ao
abandono são as mesmas.
Como resposta possível à situação-problema considerada nesta pesquisa,
encontramos na reprovação recorrente nas disciplinas de base da graduação de
90
engenharia elementos que podem co-substanciar as decisões de abandono do curso,
conforme demonstramos ao longo do trabalho.
Cumpre mencionar que o conhecimento extraído nesse trabalho poderia ser
obtido com ferramentas de bancos de dados usuais, como consultas SQL ou OLAP.
Devido à limitação da base de dados trabalhada não se pôde atingir a profundidade
que se pretendia obter.
Entretanto, também é importante frisar que o conhecimento extraído neste
trabalho referenda a realidade do ensino público de engenharia em nosso país.
Trabalhos futuros.
Tratamos nesta pesquisa de uma base de dados puramente curricular, onde
cada matrícula representava um dado, só lembrado como aluno quando da análise
dos resultados. Porém, nossa preocupação é com o ser humano - com os alunos que
sucumbem às dificuldades e desistem do curso. Estamos falando de comportamento,
de atitudes humanas, de decisões tomadas por aspectos subjetivos. Se temos um
problema relativo à evasão, temos de pesquisar todos os elementos que podem dar
causa à essa questão. A oportunidade de refazer esse estudo, com uma base de
dados atualizada e que congregue também os dados pessoais e os dados
socioeconômicos dos alunos, trará uma grande contribuição à sociedade, ao meio
acadêmico e ao meio produtivo.
A expansão do horizonte da pesquisa também pode ser considerada através
da comparação dos contrastes e não só das semelhanças - como foi feito nesse
trabalho. Comparar o desempenho dos alunos cancelados com os formados e o
rendimento nas disciplinas obrigatórias com as não obrigatórias, serve de exemplo
para esse comentário.
Outra possibilidade encontrada é “ouvir” os alunos que abandonam, verificando
o conceito que o excluído dá a exclusão. Talvez através da implementação de um
questionário e utilizando técnicas de Text Mining.
Todo cliente deve ser retido? De acordo com o Marketing e as técnicas de
CRM, (customer relationship management) nem todos os clientes devem ser retidos. E
com relação à educação, pode se dá o mesmo enfoque? Cabe aplicar os conceitos de
marketing educacional e tratar a universidade como uma organização empresarial?
Esse também pode ser um objeto de pesquisa, principalmente em se tratando de
instituições públicas onde não há desembolso das mensalidades do curso pelo aluno.
Como descobrir os alunos que “valem” o esforço da retenção?
Essa pesquisa alcançou uma pequena parte do grande universo na qual está
inserida. Sem dúvida muitos outros trabalhos podem e devem ser feitos buscando
maior entendimento sobre o fenômeno da evasão escolar (enquanto há tempo).
91
Reafirmamos que os próximos trabalhos, além de uma base com menos dados
faltantes, devem contemplar dados pessoais, socioeconômicos e outros que possam
auxiliar na descoberta de aspectos subjetivos adjacentes à vida curricular.
Considerações finais.
Como o foco desse trabalho é a Educação, queremos reforçar que todo o
investimento em educação se reverte em riqueza: pessoal, social, econômica, política,
ambiental... Em 1993 Peter Drucker já declarava: “a formação de conhecimento é o
maior investimento em todos os países desenvolvidos e o retorno que um país ou uma
empresa obtém sobre o conhecimento certamente será, cada vez mais, um fator
determinante de sua competitividade”.
Acreditamos que a melhoria do cenário correspondente à evasão poderia se
iniciar com ações estruturadas para o esclarecimento sobre cursos e profissões,
focando-se nos cursos onde a evasão é maior e nas áreas onde a necessidade de
profissionais vem crescendo. Isso significa abordar duas formas de educação que se
complementariam: “orientar antes para formar depois”. O tempo mudou, as conexões
mudaram, a escola continua a mesma: o aluno permanece sozinho.
Procuramos neste trabalho contribuir para a constatação de algumas ações
que venham tornar o nosso ensino público mais eficiente. Esperamos que a paixão
que nos trouxe até aqui possa também acompanhar os trabalhos futuros inerentes ao
tema Educação.
92
REFERÊNCIAS
CAVALCANTI, M.; GOMES, E.; PEREIRA, A., 2001, Gestão de empresas na
sociedade do conhecimento. Rio de Janeiro, Campus.
DODGE, G.; GORMAM, T., 2000, Essencial Oracle 8i datawarehousing. New York,
John Wiley & Sons Inc.
DRUCKER, P., 1994, Sociedade pós-capitalista. São Paulo, Pioneira.
FAYYAD, U.M; PIATETSKY-SAHAPIRO, G.; SMYTH, G., 1996, From Data Mining to
knowledge discovey: an overview. In: Advances in Knowledge Discovery & Data
Mining, USA, AAAI Press.
FREIRE, P., 2001, Pedagogia dos sonhos possíveis. São Paulo, Unesp.
HAN, J., KAMBER, M., 2001, Data Mining concepts and techniques. San Diego,
Morgan Kaufmann.
HARRISON, T., 1998, Intranet Data Warehouse. São Paulo, Berkeley.
INMON, W., 2002, Building the Data Warehouse. 4 ed. New York, John Wiley &
Sons.
LIU, B. ET AL., 2000, Analysing the Subjective Interestingness of Association Rules,
IEEE Inteligent Systems, pp. 47-55.
RALPH, K; REEVES, L.; ROSS M.; THORNTHWAITE, W., 2002, The Data
Warehouse toolkit, Rio de Janeiro, Campus.
REZENDE, S., 2003, Sistemas inteligentes: fundamentos e aplicações. São Paulo,
Manole.
TEIXEIRA, J., 2000, Gerenciando o conhecimento. Rio de Janeiro, SENAC.
TAKAHASHI, F., 2007, Cai o número de formados na Universidade pública. In: Folha
de São Paulo, São Paulo, n. 3421, 30 dez. 2007.
UNIVERSIDADE FEDERAL FLUMINENSE, 2008, Niterói, www.uff.br.
93
ANEXO A - Esquema acadêmico do curso Graduação de Engenharia da UFF – Chaves das Tabelas
Tabela acompanhamento
Nome da chave tipo colunas tabela referenciada colunas referenciadas
PK_ACOMPANHAMENTO Primary
CODGRAU, ORDEMMAT, CODCURSO,
ANOMAT, CODINGRESSO,
ANOSEMESTRE
FK_ACOMPANHAMENTO Foreign
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT
MATRICULAALUNO
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT
Tabela
acompanhamentodesdobramento
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_ACOMPDESDOBRAMENTO Primary
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT,
ANOSEMESTRE, CODDESDCURSO
FK_ACOMPDESDOBRAMENTO Foreign
CODGRAU, ORDEMMAT, CODCURSO,
ANOMAT, CODINGRESSO,
ANOSEMESTRE
ACOMPANHAMENTO
CODGRAU, ORDEMMAT, CODCURSO,
ANOMAT, CODINGRESSO,
ANOSEMESTRE
Tabela bolsa
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_BOLSA Primary CODBOLSA
FK_BOLSA Foreign CODENTIDADE ENTIDADES CODENTIDADE
Tabela cidades
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_CIDADE Primary CODESTADO, CODCIDADE
Tabela cor
94
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_COR Primary CODCORALUNO
Tabela corequisitos
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_COREQUISITOS Primary
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO,
CODDISCIPLINA, CODDISCIPLINACO
FK_COREQUISITOS Foreign
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
CURRICULOPLENO
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
Tabela curriculominimo
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_CURRICULOMINIMO Primary
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQMINIMO
Tabela curriculopleno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_CURRICULOPLENO Primary
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
Tabela curso
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_CURSO Primary
CODGRAU, CODCURSO,
CODDESDCURSO,
DATAVIGENCIACURSO
Tabela cursohistorico
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_CURSOHISTORICO Primary
CODGRAU, CODCURSO,
CODDESDCURSO, DATAALTERACAO
Tabela dadosaluno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_DADOSALUNO Primary CODINTERNO
Tabela dataconclusao
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
95
PK_DATACONCLUSAO Primary
ANOCONCLUSAO, SEMCONCLUSAO,
CURSOCENTRO, DESDCONCLUSAO,
MESCONCLUSAO
Tabela decretos
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_DECRETOS Primary
CODGRAU, CODCURSO,
CODDESDCURSO, ANOSEMESTRE,
DATAVIGENCIADECRETO
Tabela delecaoaluno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_DELECAOALUNO Primary CODGRAU, CODDELECAO
Tabela delecaomotivo
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_DELECAOMOTIVO Primary
CODGRAU, CODTIPODELECAO,
CODMOTIVO
FK_DELECAOMOTIVO Foreign CODGRAU, CODTIPODELECAO TIPODELECAO CODGRAU, CODTIPODELECAO
Tabela desdobramentoaluno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_DESDALUNO Primary
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT,
CODDESDCURSO, CODSEQPLENO
FK_DESDALUNO Foreign
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT
MATRICULAALUNO
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT
Tabela diario
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_DIARIO Primary
CODGRAU, CODLOCALIDADE,
ANOSEMESTRE, ANOMES,
CODDISCIPLINA, CODTURMA,
CODCURSO, ANOMAT, CODINGRESSO,
ORDEMMAT
FK_DIARIO Foreign CODGRAU, CODSITDISCIPLINA SITUACAODISCIPLINA CODGRAU, CODSITDISCIPLINA
96
Tabela diassemana
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_DIASSEMANA Primary CODDIASEMANA
Tabela disciplina
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_DISCIPLINA Primary
CODGRAU, CODDISCIPLINA,
ANOSEMVIGDISC
Tabela ementadisciplina
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_EMENTADISCIPLINA Primary CODGRAU, CODDISCIPLINA
Tabela entidades
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_ENTIDADES Primary CODENTIDADE
Tabela equivalencias
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_EQUIVALENCIAS Primary
CODGRAU, CODEQUIVALENCIA,
CODCURSO, CODDESDCURSO,
CODSEQPLENO, CODDISCIPLINA,
CODDISCIPLINAEQUI
FK_EQUIVALENCIAS Foreign
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
CURRICULOPLENO
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
Tabela equivalenciasvinc
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_EQUIVINC Primary
CODEQUIVALENCIA, CODDISCIPLINA,
CODDISCIPLINAVINC
Tabela estadocivil
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_ESTADOCIVIL Primary CODESTCIVILALUNO
Tabela estados
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
97
PK_ESTADOS Primary CODESTADO, SIGLAESTADO
Tabela formaingaluno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_FORMAINGALUNO Primary CODGRAU, CODFORMAING
FK_FORMAINGALUNO Foreign CODGRAU GRAU CODGRAU
Tabela grau
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_GRAU Primary CODGRAU
Tabela historico
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_HISTORICO Primary
CODGRAU, CODLOCALIDADE,
CODCURSO, ANOMAT, CODINGRESSO,
ORDEMMAT, ANOSEMESTRE,
CODIDENTIFICADOR
Tabela horario
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_HORARIO Primary CODHORARIO
Tabela indiceturno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
Não tem chaves
Tabela ingformaingresso
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_INGFORMAING Primary
CODGRAU, CODINGRESSO,
CODFORMAING
Tabela ingresso
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_INGRESSO Primary CODGRAU, CODINGRESSO
PF_INGRESSO Foreign CODGRAU GRAU CODGRAU
Tabela localidade
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_LOCALIDADE Primary CODGRAU, CODLOCALIDADE
PF_LOCALIDADE Foreign CODGRAU GRAU CODGRAU
98
Tabela localidadecurso
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_LOCALIDADECURSO Primary
CODGRAU, CODLOCALIDADE,
CODCURSO, CODDESDCURSO
Tabela materias
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_MATERIAS Primary CODGRAU, CODMATERIA
UK_MATERIAS Unique DESCMATERIA
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_MATERIASMINIMO Primary
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQMINIMO,
CODMATERIA
FK_MATERIASMINIMO Foreign CODGRAU, CODMATERIA MATERIAS CODGRAU, CODMATERIA
FK_MATERIASMINIMO2 Foreign
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQMINIMO
CURRICULOMINIMO
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQMINIMO
Tabela matriculaaluno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_MATRICULAALUNO Primary
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT
FK_MATRICULAALUNO Foreign CODINTERNO DADOSALUNO CODINTERNO
Tabela motivocurso
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_MOTIVOCURSO Primary CODGRAU, CODMOTIVOCURSO
Tabela motivodesat
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_MOTIVODESAT Primary CODGRAU, CODMOTIVODESAT
FK_MOTIVODESAT Foreign CODGRAU GRAU CODGRAU
Tabela notasvestibular
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_NOTASVESTIBULAR Primary
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT, NUMSEQ
99
FK_NOTASVESTIBULAR Foreign
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT
MATRICULAALUNO
CODGRAU, CODCURSO, ANOMAT,
CODINGRESSO, ORDEMMAT
Tabela pais
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_PAIS Primary CODPAISALUNO
Tabela periodizacao
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_PERIODIZACAO Primary
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO,
CODDISCIPLINA
FK_PERIODIZACAO1 Foreign
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
CURRICULOPLENO
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
FK_PERIODIZACAO2 Foreign CODGRAU, CODTIPODISCIPLINA TIPODISCIPLINA CODGRAU, CODTIPODISCIPLINA
Tabela prerequisitos
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_PREREQUISITOS Primary
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO,
CODDISCIPLINA, CODDISCIPLINAPRE
FK_PREREQUISITOS Foreign
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
CURRICULOPLENO
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
Tabela quadrodedocentes
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_QUADRODEDOCENTES Primary
CODGRAU, CODLOCALIDADE,
ANOSEMESTRE, CODDISCIPLINA,
CODTURMA, MATSIAPEQDOCENTE
Tabela quadrodehorarios
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_QUADRODEHORARIOS Primary
CODGRAU, TIPOHORARIO,
CODLOCALIDADE, SEQDIA,
ANOSEMESTRE, CODDISCIPLINA,
CODTURMA
100
FK_QUADRODEHORARIOS Foreign
CODGRAU, CODLOCALIDADE,
ANOSEMESTRE, CODDISCIPLINA,
CODTURMA
QUADRODISCIPLINAS
CODGRAU, CODLOCALIDADE,
ANOSEMESTRE, CODDISCIPLINA,
CODTURMA
Tabela quadrodevagas
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_QUADRODEVAGAS Primary
CODGRAU, CODLOCALIDADE,
ANOSEMESTRE, CODDISCIPLINA,
CODTURMA, CODCURSO
FK_QUADRODEVAGAS Foreign
CODGRAU, CODLOCALIDADE,
ANOSEMESTRE, CODDISCIPLINA,
CODTURMA
QUADRODISCIPLINAS
CODGRAU, CODLOCALIDADE,
ANOSEMESTRE, CODDISCIPLINA,
CODTURMA
Tabela quadrodisciplinas
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_QUADRODISCIPLINAS Primary
CODGRAU, CODLOCALIDADE,
ANOSEMESTRE, CODDISCIPLINA,
CODTURMA
Tabela resumocurrpleno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_RESUMO Primary
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO,
CODTIPODISCIPLINA, CODCICLO
FK_RESUMO Foreign
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
CURRICULOPLENO
CODGRAU, CODCURSO,
CODDESDCURSO, CODSEQPLENO
FK_RESUMO2 Foreign CODGRAU, CODTIPODISCIPLINA TIPODISCIPLINA CODGRAU, CODTIPODISCIPLINA
Tabela situacaoaluno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_SITUACAOALUNO Primary CODGRAU, CODSITUACAO
FK_SITUACAOALUNO Foreign CODGRAU GRAU CODGRAU
Tabela situacaodisciplina
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_SITUACAODISCIPLINA Primary CODGRAU, CODSITDISCIPLINA
101
FK_SITUACAODISCIPLINA Foreign CODGRAU GRAU CODGRAU
Tabela tipodelecao
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_TIPODELECAO Primary CODGRAU, CODTIPODELECAO
Tabela tipodisciplina
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_TIPODISCIPLINA Primary CODGRAU, CODTIPODISCIPLINA
Tabela titulacao
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_TITULACAO Primary
CODGRAU, CODDESDCURSO,
CODCURSO, CODTITULACAO
Tabela turno
Nome da chave tipo Colunas tabela referenciada colunas referenciadas
PK_TURNO Primary CODGRAU, INDTURNO, CODTURNO
FK_TURNO Foreign CODGRAU GRAU CODGRAU
Fonte: UFF
102
ANEXO B - Construção do Banco de Dados em Oracle
Ligado a: Oracle Database 10g Enterprise Edition Release 10.2.0.1.0 - Production
With the Partitioning, OLAP and Data Mining options
Exportação efectuada no conjunto de caracteres WE8MSWIN1252 e conjunto de
caracteres NCHAR AL16UTF16
Prestes a exportar utilizadores especificados
. a exportar acções e objectos de procedimentos pré-schema
. a exportar nomes de bibliotecas de funções externas para utilizador TESE
. a exportar sinónimos do tipo PUBLIC
. a exportar sinónimos do tipo PRIVATE
. a exportar definições de tipos de objecto para utilizador TESE
Prestes a exportar objectos do utilizador TESE ...
. a exportar referências de base de dados
. a exportar números sequenciais
. a exportar definições de cluster
. prestes a exportar tabelas do TESE ... via Percurso Convencional ...
. . a exportar tabela ACOMPACOMPDESDOB 6558 linhas exportadas
. . a exportar tabela ACOMPANHAMENTO 47786 linhas exportadas
. . a exportar tabela ACOMPANHAMENTODESDOBRAMENTO 45536 linhas
exportadas
. . a exportar tabela ACOMP_DEL_MAIOR_0 3741 linhas exportadas
. . a exportar tabela ACOMPDESDOB 45536 linhas exportadas
. . a exportar tabela ACOMPMATPERF 47786 linhas exportadas
. . a exportar tabela BOLSA 9 linhas exportadas
. . a exportar tabela CIDADES 1665 linhas exportadas
. . a exportar tabela COD0_2961 2961 linhas exportadas
. . a exportar tabela COD0_3040 3040 linhas exportadas
. . a exportar tabela COR 6 linhas exportadas
. . a exportar tabela COREQUISITOS 109 linhas exportadas
. . a exportar tabela CURRICULOMINIMO 15 linhas exportadas
. . a exportar tabela CURRICULOPLENO 21 linhas exportadas
. . a exportar tabela CURSO 200 linhas exportadas
. . a exportar tabela CURSOHISTORICO 204 linhas exportadas
. . a exportar tabela DADOSALUNO 21315 linhas exportadas
. . a exportar tabela DATACONCLUSAO 439 linhas exportadas
. . a exportar tabela DECRETOS 86 linhas exportadas
. . a exportar tabela DELECAOALUNO 25 linhas exportadas
. . a exportar tabela DELECAOMOTIVO 27 linhas exportadas
. . a exportar tabela DESDOBRAMENTOALUNO 6723 linhas exportadas
. . a exportar tabela DIARIO 127219 linhas exportadas
. . a exportar tabela DIARIOMAT 110522 linhas exportadas
. . a exportar tabela DIASSEMANA 6 linhas exportadas
. . a exportar tabela DISCIPLINA 10657 linhas exportadas
. . a exportar tabela EMENTADISCIPLINA 4433 linhas exportadas
. . a exportar tabela ENTIDADES 7 linhas exportadas
. . a exportar tabela EQUIVALENCIAS 327 linhas exportadas
. . a exportar tabela EQUIVALENCIASVINC 12 linhas exportadas
. . a exportar tabela ESTADOCIVIL 7 linhas exportadas
. . a exportar tabela ESTADOS 27 linhas exportadas
. . a exportar tabela FORMAINGALUNO 14 linhas exportadas
. . a exportar tabela GRAU 12 linhas exportadas
103
. . a exportar tabela HISTORICO 236671 linhas exportadas
. . a exportar tabela HISTORICOMAT 236671 linhas exportadas
. . a exportar tabela HORARIO 22 linhas exportadas
. . a exportar tabela INDICETURNO 3 linhas exportadas
. . a exportar tabela INGFORMAINGRESSO 14 linhas exportadas
. . a exportar tabela INGRESSO 9 linhas exportadas
. . a exportar tabela LOCALIDADE 17 linhas exportadas
. . a exportar tabela LOCALIDADECURSO 117 linhas exportadas
. . a exportar tabela MATERIAS 937 linhas exportadas
. . a exportar tabela MATERIASMINIMO 343 linhas exportadas
. . a exportar tabela MAT_REPETEM_DEL 107 linhas exportadas
. . a exportar tabela MATRICULAALUNO 21316 linhas exportadas
. . a exportar tabela MOTIVOCURSO 7 linhas exportadas
. . a exportar tabela MOTIVODESAT 12 linhas exportadas
. . a exportar tabela NOTASVESTIBULAR 100415 linhas exportadas
. . a exportar tabela PAIS 323 linhas exportadas
. . a exportar tabela PERIODIZACAO 1333 linhas exportadas
. . a exportar tabela PREREQUISITOS 1438 linhas exportadas
. . a exportar tabela QUADRODEDOCENTES 37328 linhas exportadas
. . a exportar tabela QUADRODEHORARIOS 19322 linhas exportadas
. . a exportar tabela QUADRODEVAGAS 18488 linhas exportadas
. . a exportar tabela QUADRODISCIPLINAS 12248 linhas exportadas
. . a exportar tabela RESUMOCURRPLENO 65 linhas exportadas
. . a exportar tabela SITUACAOALUNO 11 linhas exportadas
. . a exportar tabela SITUACAODISCIPLINA 6 linhas exportadas
. . a exportar tabela TIPODELECAO 4 linhas exportadas
. . a exportar tabela TIPODISCIPLINA 9 linhas exportadas
. . a exportar tabela TITULACAO 532 linhas exportadas
. . a exportar tabela TURNO 23 linhas exportadas
. a exportar sinónimos
. a exportar vistas
. a exportar procedimentos armazenados
. a exportar operadores
. a exportar restrições de integridade referencial
. a exportar triggers
. a exportar tipos de índice
. a exportar bitmap, índices funcionais e extensíveis
. a exportar acções lançáveis
. a exportar vistas materializadas
. a exportar diários de instantâneos
. a exportar filas de espera de tarefas
. a exportar grupos de renovação e filhos
. a exportar dimensões
. a exportar acções e objectos de procedimentos pós-schema
. a exportar estatísticas
Exportação terminada com êxito, sem avisos.
104
ANEXO C - Evolução das bases de dados
SQL> CREATE TABLE TBASENOVA6 AS SELECT * FROM TBASENOVA3;
Tabela criada.
SQL>
SQL>
SQL> CREATE INDEX TBASENOVA6_IDX1 ON TBASENOVA6 (MATRICULA,
CODDISCIPLINA, ANOSEMDIARIO);
Índice criado.
SQL> UPDATE TBASENOVA6 SET CODDISCIPLINA = 'GMA04043' WHERE
CODDISCIPLINA ='TMI04069';
1228 linhas actualizadas.
UPDATE TBASENOVA6 SET CODDISCIPLINA = 'GMA06074' WHERE
CODDISCIPLINA ='TMI06070';
824 linhas actualizadas.
UPDATE TBASENOVA6 SET CODDISCIPLINA = 'GMA06071' WHERE
CODDISCIPLINA ='TMI06072';
567 linhas actualizadas.
UPDATE TBASENOVA6 SET CODDISCIPLINA = 'TCC03063' WHERE
CODDISCIPLINA ='TMI03067';
1038 linhas actualizadas.
UPDATE TBASENOVA6 SET CODDISCIPLINA = 'TCC03059' WHERE
CODDISCIPLINA ='TMI03074';
469 linhas actualizadas.
SQL> UPDATE TBASENOVA6 SET CLASSENOTA='D' WHERE CLASSENOTA IS
NULL;
11886 linhas actualizadas.
SQL> SELECT COUNT(*) FROM TBASENOVA6 WHERE CLASSENOTA != 'A' AND
"SITUAÇÃO" ='C';
COUNT(*)
----------
7357
SQL> SELECT COUNT(*) FROM TBASENOVA6 WHERE CLASSENOTA != 'A' AND
"SITUAÇÃO" ='C'
2 AND CODDISCIPLINA IN
3 (SELECT CODDISCIPLINA FROM TESE.PERIODIZACAO
105
4 WHERE CODTIPODISCIPLINA='O');
COUNT(*)
----------
5403
SELECT COUNT(*), CODDISCIPLINA FROM TBASENOVA6 WHERE CLASSENOTA
!= 'A' AND "SITUAÇÃO" ='C'
AND CODDISCIPLINA IN
(SELECT CODDISCIPLINA FROM TESE.PERIODIZACAO
WHERE CODTIPODISCIPLINA='O')
GROUP BY CODDISCIPLINA
having count(*) > 20
ORDER BY COUNT(*) desc
/
COUNT(*) CODDISCIPLINA
---------- ---------------
761 GMA04043
674 GFI05100
515 GAN06118
418 GGM02055
350 TCC03060
234 TCC03063
206 GMA06074
171 GMA04004
156 GMA06071
155 GFI05102
151 GFI05101
130 GGM03077
126 GET04021
106 TEP03041
62 GFI04104
61 TEC03188
61 TCC03059
58 GQI04019
55 GFI05103
54 GGE04057
46 TDT03015
41 SDB03073
38 TEP04014
35 TEP03042
32 TEE04094
30 TET05100
29 TEP04040
24 TEC05124
22 TEC04080
22 GMA04058
21 TEM04125
21 TET05114
32 linhas seleccionadas.
SQL> create table tbasenova7 as select * FROM TBASENOVA6 WHERE
CLASSENOTA != 'A' AND "SITUAÇÃO" ='C'
2 AND CODDISCIPLINA IN
106
3 (SELECT CODDISCIPLINA FROM TESE.PERIODIZACAO
4 WHERE CODTIPODISCIPLINA='O')
5 /
Tabela criada.
SQL> select count(*) from tbasenova7;
COUNT(*)
----------
5403
create table tbasenova8 as select * from tbasenova7
where coddisciplina in (
'GMA04043',
'GFI05100',
'GAN06118',
'GGM02055',
'TCC03060',
'TCC03063',
'GMA06074',
'GMA04004',
'GMA06071',
'GFI05102',
'GFI05101',
'GGM03077',
'GET04021',
'TEP03041',
'GFI04104',
'TEC03188',
'TCC03059',
'GQI04019',
'GFI05103',
'GGE04057',
'TDT03015',
'SDB03073',
'TEP04014',
'TEP03042',
'TEE04094',
'TET05100',
'TEP04040',
'TEC05124',
'TEC04080',
'GMA04058',
'TEM04125',
'TET05114')
SQL> select count(*) from tbasenova8;
COUNT(*)
----------
4865
107
ANEXO D – Relação das disciplinas da base de dados final
Disciplinas Reprovações
1 GMA04043 Cálculo Diferencial e Integral Aplicado I 761
15,6%
2 GFI05100 Física Geral e Experimental XVIII 674
13,9%
3 GAN06118 Álgebra Linear Aplicada 515
10,6%
4 GGM02055 Introdução à Geometria Descritiva 418
8,6%
5 TCC03060 Introdução à Informática 350
7,2%
6 TCC03063 Programação de Computadores III 234
4,8%
7 GMA06074 Cálculo Diferencial e Integral Aplicado II 206
4,2%
8 GMA04004 Cálculo Diferencial e Integral IV 171
3,5%
9 GMA06071 Equações Diferenciais Aplicadas 156
3,2%
10 GFI05102 Física Geral e Experimental XX 155
3,2%
11 GFI05101 Física Geral e Experimental XIX 151
3,1%
12 GGM03077 Geometria Descritiva VI 130
2,7%
13 GET04021 Estatística XI 126
2,6%
14 TEP03041 Fundamentos de Economia 106
2,2%
15 GFI04104
Mecânica Geral V
62 1,3%
16 TEC03188
Metodologia Científica para Engenharia
61 1,3%
17 TCC03059
Introdução aos Métodos Numéricos
61 1,3%
18 GQI04019
Química Geral Inorgânica Experimental II
58 1,2%
19 GFI05103
Física Geral e Experimental XXI
55 1,1%
20 GGE04057
Ecologia Geral
54 1,1%
21 TDT03015
Desenho Básico
46 0,9%
22 SDB03073
Introdução ao Direito II
41 0,8%
23 TEP04014
Administração e Organização I
38 0,8%
24 TEP03042
Fundamentos da Engenharia Econômica
35 0,7%
25 TEE04094
Circuitos Elétricos IV
32 0,7%
26 TET05100
Eletromagnetismo I
30 0,6%
27 TEP04040
Pesquisa Operacional - Mod. Determinísticos
29 0,6%
28 TEC05124
Resistência dos Materiais IX
24 0,5%
29 TEC04080
Fenômenos de Transporte V
22 0,5%
30 GMA04058
Cálculo Diferencial e Integral VIII
22 0,5%
31 TEM04125
Fenômenos de Transporte
21 0,4%
32 TET05114
Eletromagnetismo III
21 0,4%
As 32 disciplinas que mais reprovam
4.865 91,0%
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo