( PDF ) Evasão no ensino superior: um estudo utilizando a mineração de dados como ferramenta de gestão do conhecimento em um banco de dados referente à graduação de engenharia

Download PDF

ads:

EVASÃO NO ENSINO SUPERIOR: UM ESTUDO UTILIZANDO A MINERAÇÃO DE

DADOS COMO FERRAMENTA DE GESTÃO DO CONHECIMENTO EM UM BANCO DE

DADOS REFERENTE À GRADUAÇÃO DE ENGENHARIA.

Solange Lima de Souza

DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS

PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE

FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS

PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA CIVIL.

Aprovada por:

____________________________________________________

Prof. Nelson Francisco Favilla Ebecken, D.Sc.

____________________________________________________

Prof. Geraldo Martins Tavares, D.Sc.

____________________________________________________

Profª. Beatriz de Souza Leite Pires de Lima, D.Sc.

RIO DE JANEIRO, RJ - BRASIL

JULHO DE 2008

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

SOUZA, SOLANGE LIMA DE

Evasão no ensino superior: um estudo utilizando

a mineração de dados como ferramenta de gestão

do conhecimento em um banco de dados referente à

graduação de engenharia. [Rio de Janeiro] 2008

VII, 107 p. 29,7 cm (COPPE/UFRJ, M.Sc.,

Engenharia Civil, 2008)

Dissertação – Universidade Federal do Rio de

Janeiro, COPPE

1. Mineração de dados

2. Gestão do conhecimento

3. Educação

4. Evasão

5. Engenharia

I. COPPE/UFRJ. II. Título (série).

ads:

iii

A Carmelita, que deu à luz Marlene, que deu à luz

Solange.

Eu te amo, Vó. Um dia nos reencontraremos.

Agradecimentos

Aos meus filhos e cada membro da minha família, por tanto amor.

Aos meus amigos do peito, pelo aconchego, força e fé.

Aos GRANDES Nelsons, que são parte deste sonho e sempre estarão nas

minhas orações:

- Dr. Nelson Zisman, médico da minha vida, fraterno como um amigo de infância;

um presente de Deus

- Prof. Nelsom Magalhães, que me direcionou ao ser humano e à gestão do

conhecimento. Você tinha razão, Mestre: “todos os sonhos são corretos” (e possíveis).

- Querido Prof. Dr. Nelson Ebecken, pela felicidade intensa que me proporcionou

ao aceitar ser meu Orientador, materializando o que antes era só acalentado. Professor,

pelo seu desprendimento, sua presença e sua parceria verdadeira, muito obrigada.

Você é especialmente único!

Ao Prof. Dr. Marcos Cavalcanti, o primeiro a me abrir as portas da Coppe, pela

confiança depositada na minha confiança!

Ao Prof. Dr. Jadilson Santos, da Coordenação de Educação da UFRJ, por tão

sábias recomendações.

Ao Reinaldo Duarte, pelo incentivo ao meu desenvolvimento, pelo crédito e o

apoio na viabilização deste mestrado. Valeu Chefe!

Ao Mestrando e Analista de Banco de Dados, Júlio César Chaves, meu Amigo,

sem o qual eu não teria chegado aqui, de verdade.

Ao Jayme Teixeira Filho, em memória, por ter descortinado pra mim o mundo

maravilhoso da era do conhecimento, enquanto pôde fazê-lo.

Ao amigo Henrique Oswaldo Uzêda Pereira de Souza, do NTI da UFF, pela

atenção prestimosa, pelo carinho e tanta paciência.

Ao consultor Robson Santos, colega de trabalho que se transformou em amigo

de fé, pela ajuda certa, na hora certa.

À querida Aparecida Laino, pela contribuição a este trabalho, muito mais pela

amizade que compreende, anima e edifica.

Ao Mestre Jorge Luis de Oliveira Borges por ter iniciado esta caminhada junto

comigo.

E finalmente, porém em absoluto primeiro lugar, agradeço a Jeová, Deus dos

hebreus, Aquele que me ilumina e me retorna ao remanso, em cada corredeira do

caminho. Obrigada, Pai, em nome de Jesus Cristo. Amém.

Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos

necessários para a obtenção do grau de Mestre em Ciências (M.Sc.).

EVASÃO NO ENSINO SUPERIOR: UM ESTUDO UTILIZANDO A MINERAÇÃO DE

DADOS COMO FERRAMENTA DE GESTÃO DO CONHECIMENTO EM UM BANCO

DE DADOS REFERENTE À GRADUAÇÃO DE ENGENHARIA.

Solange Lima de Souza

Julho/2008

Orientador: Nelson Francisco Favilla Ebecken

Programa: Engenharia Civil

Trabalho experimental que objetiva gerar conhecimento a partir da investigação

da evolução dos alunos compostos em uma base de dados da graduação de

engenharia. Pretende demonstrar um padrão descritivo dos casos que levam ao

abandono do curso, através da utilização das técnicas de mineração de dados. Foram

criadas regras de classificação, através de árvores de decisão, e regras de associação.

Algumas considerações acerca da educação nesta nova economia do conhecimento

também foram trazidas, visando contribuir para a mudança do comportamento

constatado. Os resultados do trabalho mostraram uma série de disciplinas que

conduzem à reprovação, indicando a necessidade de se rever o currículo dos cursos ou

a abordagem das disciplinas.

Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the

requirements for the degree of Master of Science (M.Sc.).

STUDENT EVASION AT THE UNIVERSITY LEVEL: A STUDY USING DATA MINING

AS A TOOL FOR KNOWLEDGE-BASED MANAGEMENT IN A DATA BASE OF

UNDERGRADUATE ENGINEERING PROGRAMS.

Solange Lima de Souza

July/2008

Advisor: Nelson Francisco Favilla Ebecken

Department: Civil Engineering

This experimental work has as objective to find out knowledge through the use of

data mining techniques. It inquiries the student’s evolution composed in a database of

engineering graduation. The purpose is to demonstrate a descriptive standard of the

cases that lead to the abandonment of the course. It had been created Classification

Rules, through Decision Trees, and Association Rules. Some questions concerning the

education in this new knowledge based-economy had been also brought. The results of

the work had suggested that some modifications must be introduced to produce an

increase in academic efficiency.

vii

ÍNDICE DE TEXTO

1 INTRODUÇÃO ................................................................................................... 1

1.1 JUSTIFICATIVA DO TEMA E MOTIVAÇÃO ....................................................... 2

1.2 OBJETIVOS E DELIMITAÇÃO ........................................................................... 3

1.3 MÉTODOS E FERRAMENTAS .......................................................................... 4

1.4 APRESENTAÇÃO DO TRABALHO .................................................................... 5

2 MASSA DE DADOS .......................................................................................... 7

2.1 COMPOSIÇÃO DA BASE DE DADOS ............................................................. 12

2.2 SISTEMATIZAÇÃO DO PROCESSO ............................................................... 13

2.3 PREPARAÇÃO DA BASE ................................................................................. 18

2.3.1 Organização e pré-processamento ............................................................... 19

2.4 DADOS A SEREM MINERADOS ..................................................................... 27

3 MINERAÇÃO DE DADOS ............................................................................... 32

3.1 TÉCNICAS UTILIZADAS .................................................................................. 39

3.2 COMPONENTE ORACLE DATA MINER.......................................................... 42

4 REGRAS DE ASSOCIAÇÃO .......................................................................... 47

4.1 CONSTRUÇÃO ................................................................................................. 47

5 CLASSIFICAÇÃO ............................................................................................ 59

5.1 CONSTRUÇÃO ................................................................................................. 59

6 DESCOBERTA DO CONHECIMENTO ........................................................... 83

7 CONCLUSÕES ................................................................................................ 86

REFERÊNCIAS ........................................................................................................... 92

ANEXO A - ESQUEMA ACADÊMICO DO CURSO GRADUAÇÃO DE

ENGENHARIA DA UFF – CHAVES DAS TABELAS ................................................... 93

ANEXO B - CONSTRUÇÃO DO BANCO DE DADOS EM ORACLE ........................ 102

ANEXO C - EVOLUÇÃO DAS BASES DE DADOS .................................................. 104

ANEXO D – RELAÇÃO DAS DISCIPLINAS DA BASE DE DADOS FINAL .............. 107

1 INTRODUÇÃO

“Entrar para a faculdade”. Esta é a resposta que se obtém da maioria dos

jovens de ensino médio quando se pergunta pelo seu sonho de vida. Desde a

formulação desse desejo observa-se um equívoco no pensamento dos jovens, que

talvez não seja apenas um caso de semântica. Pode ser que eles não avaliem de fato

a diferença entre as ações de “entrar” significando passar no vestibular, e “cursar”

significando permanecer até se formar. Esta segunda hipótese importa em se analisar

previamente os percalços que um curso de graduação oferece.

Tais percalços podem ir desde um impedimento ou dificuldade séria, à falta de

motivação ligada à própria realização do curso ou ao contexto sócio-individual ou do

ambiente. Com relação à realização do curso, as queixas se prendem na rigidez

curricular, ou seja, nas disciplinas em si: quantidade, carga horária e principalmente na

dificuldade de entendimento que se traduz em resultados negativos de avaliação.

Dos diversos problemas de ordem pessoal e social, que podem alterar a

decisão do aluno, podemos citar: a) falta de condição financeira para se manter no

curso; b) incompatibilidade de horários versus a necessidade de sustento próprio ou

da família; c) escolha pela graduação feita sem a análise adequada do que ela

representa como atividade profissional ou no mercado de trabalho.

A escolha da graduação está diretamente ligada à escolha da profissão: a que

se sonha ou a que se considera acessível (tem de se dar atenção especial ao fato de

estarmos em um país onde 5 milhões de pessoas participam de concursos públicos,

anualmente). Através da vivência acadêmica e do acompanhamento dos fatos, o

ímpeto e a paixão com as quais se inicia a graduação, via de regra, se esmorecem ao

longo dos períodos. Muitos esforços para nem tantos vislumbres, ou seja, o curso

pode não ser tanto quanto se esperava, ou, a profissão de ouro começa a mostrar

seus pés de barro... E aí é hora de repensar e, muito vezes, de desistir.

O principal problema atrelado a esta dissertação é a evasão no ensino

superior. Conforme publicado na edição 3421 do Jornal da Ciência, a evasão hoje nas

Instituições Federais de Ensino Superior corresponde a 40%, enquanto a média da

OCDE (Organização para a Cooperação e Desenvolvimento Econômico) é de 30%, de

acordo com o INEP

. Cumpre registrar que existem controvérsias sobre a admissão

Os dados oficiais do INEP (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio

Teixeira, ligado ao Ministério da Educação) demonstram um crescimento permanente das

matrículas de graduação nas Instituições Federais de Ensino Superior (2001: 502.960, 2002:

531.634, 2003: 567.850, 2004: 574.584, 2005: 579.587 e 2006: 589.821).

da taxa de 40% como correspondente à saída efetiva dos alunos do sistema

universitário.

A partir dos números da pesquisa feita no Brasil pelo INEP, podemos dizer que

cerca de 40% dos nossos alunos da rede pública de ensino superior estão

abandonando os cursos. O problema resulta no desperdício de dinheiro público (nosso

dinheiro), na não assimilação do conhecimento necessário às ciências e aos ofícios

(nosso desenvolvimento), na abdicação de uma conquista individual (nossa auto-

estima). Trata-se de um problema de repercussão difícil de ser medida. Entretanto, o

histórico escolar dos alunos está gravado nos bancos de dados das universidades,

além de outros dados inerentes aos alunos, aos currículos, às disciplinas etc.

Podemos encontrar um padrão de comportamento na vida acadêmica contida nessas

bases de dados, que possa ajudar a explicar o fenômeno da evasão e,

consequentemente, contribuir na busca de soluções para o problema?

1.1 JUSTIFICATIVA DO TEMA E MOTIVAÇÃO

O tema “evasão no ambiente educacional” vem sendo objeto de vários estudos

e pesquisas.

Por um lado, o desperdício das condições físicas criadas para atendimento de

um número expressivo de alunos e o não aproveitamento do tempo dedicado dos

docentes e empenho dos profissionais de ensino. Por outro lado, o meio produtivo

desfalcado de profissionais graduados e competentes para agir e inovar.

O Governo Federal, através da Subchefia para Assuntos Jurídicos da Casa

Civil, sancionou o Decreto nº. 6.096, em 24 de abril de 2007. O decreto institui o

“Programa de Apoio a Planos de Reestruturação e Expansão das Universidades

Federais” - REUNI.

DECRETA: Art. 1

Fica instituído o Programa de Apoio a Planos de

Reestruturação e Expansão das Universidades Federais - REUNI,

com o objetivo de criar condições para a ampliação do acesso e

permanência na educação superior, no nível de graduação, pelo

melhor aproveitamento da estrutura física e de recursos humanos

existentes nas universidades federais.

§ 1

O Programa tem como meta global a elevação gradual da taxa

de conclusão média dos cursos de graduação presenciais para

noventa por cento e da relação de alunos de graduação em cursos

presenciais por professor para dezoito, ao final de cinco anos, a

contar do início de cada plano.

Sem pretender analisar o mérito das metas propostas pelo Reuni, o decreto expressa

a preocupação com o ensino superior no país, principalmente com relação ao acesso

à universidade e à conclusão dos cursos de graduação. Ainda que os critérios e os

fundamentos teórico-metodológicos e empíricos que inspiraram o decreto sejam

controversos, é inegável que a lei oficialmente abriu o leque de discussões e

deslanchou numa rede de pronunciamentos. Ocorreram manifestações em todo o

país, mobilizações estudantis, docentes, de técnico-administrativos, lembrando, entre

outras coisas, a prioridade da qualidade sobre a quantidade.

A responsabilidade intrínseca ao tema está na afirmação de que o problema da

evasão na graduação não se restringe somente ao meio acadêmico (nem a causa,

nem o efeito). O problema circula em todos os meios.

Além da questão trazida pelo binômio empresa-escola, estamos vivendo a

transformação do paradigma: o meio acadêmico é para reflexão e o meio produtivo é

para a ação. Nos dias de hoje, a reflexão e a ação devem acontecer nos dois mundos.

Aliás, só existe um mundo: de nada adianta a reflexão que não se converte em

conhecimento. Conhecimento que possa ser aplicado a favor da vida. Estamos

ingressando em uma nova economia, uma nova sociedade. Outros aspectos se

inserem nesse mundo acadêmico-produtivo: o individual, o social, o ambiental. Neste

novo contexto onde todas as questões se conectam, pesquisar o abandono da escola

adquire uma relevância tão expressiva quanto a necessidade de se revisitar a questão

educacional, sempre. A educação é a única saída para o impasse capitalista em que

vivemos. (TEIXEIRA, 2000)

Portanto, o tema “evasão no ensino superior“ faz gerar motivação, por si

mesmo. Ademais, o trabalho está sendo conduzindo por uma profissional em

educação empresarial, trabalhadora em Recursos Humanos com ênfase em Gestão

de Competências. Uma estudiosa em Gestão do Conhecimento, de fato, que no seu

dia-a-dia vivencia a necessidade de valorização do ser humano como a verdadeira

fonte de riqueza de uma organização e da sociedade como um todo.

Assim, a importância do tema amplifica a responsabilidade pelo

desenvolvimento do trabalho. Em contrapartida, produz emoção positiva a cada

resultado ou conquista, ainda que aparentemente simples.

1.2 OBJETIVOS E DELIMITAÇÃO

O objetivo principal deste trabalho é auxiliar na busca de razões para a evasão

no ensino superior através da utilização de técnicas de mineração de dados. A evasão

no sistema escolar é um problema de ordem nacional, como visto no capítulo anterior.

São imprescindíveis, portanto, todos os esforços feitos no sentido de minimizar o

problema. Por isso, a contribuição nesse sentido é o objetivo principal deste trabalho.

Na dissertação abordamos os conceitos de mineração de dados e técnicas

respectivas. Trabalhamos com o banco de dados fornecido pela Universidade Federal

Fluminense – UFF, tendo em vista o interesse da instituição pelo tema da pesquisa.

Assim, o estudo de caso deste trabalho está limitado ao espaço amostral da UFF. A

massa de dados cedida corresponde aos anos de 1954 a 2005 e somente à

graduação de Engenharia. A abrangência teve de ser reduzida ao período de 11 anos,

de 1995 a 2005, devido a dados faltantes e imprecisos relativos aos anos iniciais. Na

base de dados em questão não constam os dados de nível socioeconômico, portanto

só realizamos comparações de dados referentes à vida escolar dos alunos.

1.3 MÉTODOS E FERRAMENTAS

Para auxiliar na busca de entendimento sobre a evasão do ensino superior,

dada a relevância do problema, optamos por utilizar as técnicas de mineração de

dados, mais precisamente as Regras de Associação e a Classificação. As técnicas

são aplicadas com o objetivo de encontrar regras passíveis de teste e aplicação, numa

analise de “dados sobre dados”.

A Classificação Supervisionada é o tipo escolhido para a busca de regras, uma

vez que as classes já estão identificadas através do sistema de codificação da base de

dados.

Como fundamentação teórica para a mineração de dados, utilizamos como

base a literatura de Han, Jiawei e Kamber Micheline, seguindo-se outros autores de

Data Mining, devidamente referenciados neste trabalho.

Com base nos autores citados, a seguinte metodologia está sendo adotada na

pesquisa (HAN; KAMBER, 2001):

1ª – Limpeza dos dados;

2ª – Consolidação;

3ª – Seleção;

4ª – Transformação;

5ª – Mineração;

6ª – Avaliação de regras e padrões;

7ª – Apresentação do conhecimento descoberto.

A análise está presente durante todas as etapas da metodologia e na

passagem de uma etapa para a outra, podendo-se considerar a metodologia como um

processo contínuo de análise.

O banco de dados foi organizado em ambiente ORACLE e optou-se por utilizar

a ferramenta ORACLE Data Miner (ODM) como motor de mineração. Tal decisão pode

ser considerada como um desafio, uma vez que não se encontrou registros da

utilização da ferramenta ODM em pesquisas cientificas até o momento.

Em síntese, utilizando técnicas de mineração, acreditamos que os dados

contidos nas grandes bases das universidades podem revelar padrões de

comportamento e auxiliar na construção de modelos descritivos.

1.4 APRESENTAÇÃO DO TRABALHO

Este trabalho disserta sobre o problema da evasão no ensino superior nas

instituições públicas, visando contribuir na busca de soluções através da aplicação das

técnicas de mineração de dados em uma base de dados amostral. Neste primeiro

capítulo, no qual fazemos a introdução da dissertação, é apresentada a situação-

problema e os objetivos do trabalho são clarificados. A pesquisa se justifica através do

alto índice de alunos graduandos que se evadem do sistema, sendo citada a

preocupação do governo federal expressa através do REUNI “Programa de Apoio a

Planos de Reestruturação e Expansão das Universidades Federais”. Além da

importância do tema no cenário de desenvolvimento do país - principalmente nesta

nova sociedade do conhecimento - uma forte motivação para a pesquisa vem do fato

da autora atuar em educação empresarial e constatar o quanto o meio produtivo é

fortemente impactado pelo problema. No que concerne à delimitação da pesquisa, é

estabelecido que se trata de um levantamento analítico de dados brutos sobre a vida

acadêmica dos graduandos compostos na base de dados disponibilizada pela

Universidade Federal Fluminense – UFF.

O Capítulo 2 fala sobre a massa de dados disponibilizada pela UFF, sobre a

etapa inicial de entendimento da base e sobre o processo alvo de estudo: preparação

da base de dados para possibilitar as análises decorrentes. O modo operante do

sistema acadêmico da UFF e a sistematização do processo são demonstrados na

forma de tabelas e quadros. As etapas seguintes de pré-processamento (limpeza e

organização dos dados) são trazidas, visando demonstrar a categorização de variáveis

e a criação de classes, enfim, as etapas de transformação até chegarmos aos dados

considerados relevantes para a pesquisa: os dados a serem minerados.

O Capítulo 3 disserta sobre a Mineração de Dados - um pouco do histórico e

aspectos conceituais - e sua origem dentro do processo maior de KDD (Knowledge

Discovery on Databases). São vistas as definições de Data Warehouse, Data Mart e

também as etapas de um processo de mineração de dados, as técnicas de Regras de

Associação e Classificação a partir da criação de Árvores de Decisão. A apresentação

do ORACLE Data Miner – ODM, como componente a ser utilizado para mineração,

também consta desse capítulo.

O Capítulo 4 descreve a técnica de Regras de Associação e exibe as regras

construídas com os devidos comentários. O Capítulo 5 segue a mesma linha do

capítulo anterior, demonstrando a técnica de Classificação, as regras construídas e os

comentários sobre elas. Em ambos os capítulos é colocado um passo-a-passo para a

construção das regras através do ODM.

O Capítulo 6 registra o conhecimento descoberto através das técnicas de

mineração de dados aplicadas. O resultado das análises das regras de associação e

de classificação construídas é contraposto à situação-problema apresentada na

dissertação.

O Capítulo 7 traz as conclusões do trabalho: uma síntese do aprendizado que

se buscou na elaboração da dissertação. São lembrados o caminho percorrido e suas

principais dificuldades, mostrando a evolução do trabalho até o que se supõe ser uma

resposta ao problema apresentado: a descoberta do conhecimento contido no banco

de dados estudado e sua contextualização. O capítulo se encerra com sugestões para

futuras pesquisas e com ponderações sobre a consecução do presente trabalho.

2 MASSA DE DADOS

O banco de dados utilizado nesta pesquisa foi fornecido pela Universidade

Federal Fluminense (UFF).

A UFF é uma instituição criada em 18/12/1960 que comporta 26 unidades de

ensino (12 Institutos, 9 Faculdades e 5 Escolas), amparados por 84 departamentos de

ensino e 2 colégios agrícolas. Seguem alguns dados da UFF obtidos na página oficial

da instituição em 06/06/2008 (Figura 2.1).

Alunos Matriculados

Nível/Tipo Ano Quantidade Fonte(s)

Colégio Agrícola Nilo Peçanha

2006 312 CANP

Colégio Técnico Agrícola Ildefonso Bastos Borges

2006 297 CTAIBB

Graduação

2006 23.697 PingIfes

Ensino a Distância

2005 1.544 NEAMI

Pós-Graduação - Mestrado Profissional

2006 260 PingIfes

Pós-Graduação Stricto sensu - Mestrado

2006 2.139 PingIfes

Pós-Graduação Stricto sensu - Doutorado

2006 1.046 PingIfes

Residência Médica

2006 124 COREME

Alunos Concluintes

Nível Ano Fonte(s)

Colégio Agrícola Nilo Peçanha

2006 175 CANP

Colégio Técnico Agrícola Ildefonso Bastos Borges

2006 262

Graduação

2006 2881 DAE

Ensino a Distância

2005 13

Pós-Graduação - Mestrado Profissional

2006 107

PROPP

Pós-Graduação Stricto sensu - Mestrado

2006 629

Pós-Graduação Stricto sensu - Doutorado

2006 121

Residência Médica

2006 47 COREME

Produção Científica

Produto Ano Quantidade Fonte

Livros Publicados

2006

183

RADOCs

Artigos em Periódicos Internacionais

745

Artigos em Periódicos Nacionais

871

Teses de Doutorado Orientadas

Teses de Mestrado Orientadas

163

Trabalhos Apresentados em Cong. Científicos

2193

Trabalhos Publicados em Cong. Científicos

1298

Figura 2.1: Dados sobre a UFF

Fonte: UFF

A UFF disponibilizou para a Universidade Federal do Rio de Janeiro (UFRJ) um

conjunto de dados referentes à graduação de Engenharia, com data de atualização

correspondente ao 2º semestre de 2005.

O conjunto de dados disponibilizado foi o seguinte:

- explicação sobre as tabelas do esquema acadêmico UFF;

- chaves das tabelas;

- estrutura das tabelas;

- massa de dados: 55 arquivos em modo texto, sendo cada um correspondente

a uma tabela.

A descrição das tabelas, mantendo a forma original recebida da UFF, está

colocada no Quadro 2.1.

Quadro 2.1: Tabelas do esquema acadêmico da UFF

ACOMPANHAMENTO – armazena dados resumidos sobre a situação dos alunos em cada

período cursado, durante sua vida acadêmica.

ACOMPANHAMENTODESDOBRAMENTO – armazena dados sobre a habilitação do curso ao

qual o aluno está ligado em cada semestre, identificando, também, as alterações destas

habilitações.

BOLSA – armazena dados sobre o tipo de bolsas concedidas a alunos de graduação. Tabela

nova para o sistema, não tendo seus dados atualizados para os alunos.

CIDADES – armazena código e descrição das cidades, vinculados aos respectivos estados.

COR – armazena códigos referentes à cor dos alunos. Tabela nova para o sistema, retirada

dos arquivos do IBGE.

COREQUISITOS – armazena a associação entre disciplinas e seus co-requisitos (disciplinas

que devem ser cumpridas ao mesmo tempo da principal).

CURRICULOMINIMO – armazena dados de integralização curriculares e legislativos,

referentes aos cursos da UFF.

CURRICULOPLENO – armazena dados gerais sobre os currículos dos cursos de graduação

da UFF, como, referencias legislativas, turno, duração nº de créditos por período, ano e

semestre em que passou a vigorar e status, entre outros.

CURSO – tabela que armazena dados sobre os cursos de graduação da UFF, com respectivas

habilitações ou desdobramentos. O código de desdobramento = 99 valida o nome do curso.

CURSOHISTORICO – armazena dados do histórico das atualizações ocorridas nos cursos /

habilitações de graduação da UFF.

DADOSALUNO – armazena dados pessoais, de endereço e de documentos, dos alunos de

graduação da UFF. Possui o atributo CODINTERNO para efetuar a associação com a tabela

MATRICULAALUNO.

DATACONCLUSAO – armazena as datas de conclusão dos cursos da UFF, por semestre e

ano. Tais datas são impressas no histórico escolar dos alunos.

DECRETOS – armazena as datas de vigência dos decretos de validação ou reconhecimento

dos cursos / habilitações de graduação da UFF.

DELECAOALUNO – armazena códigos e respectivas descrições, do vínculo do aluno com a

UFF. A ocorrência 00 indica que o aluno está ativo, ou seja, cursando o semestre corrente. As

demais situações indicam o final do vínculo com a universidade (por formatura, por

transferência ou por cancelamento de matrícula).

DELECAOMOTIVO – tabela que armazena e agrupa os atributos CODDELECAO, em motivos

específicos, a saber: ATIVO, FORMADO, CANCELADO, e DESATIVADO.

DESBOBRAMENTOALUNO – armazena para cada aluno matriculado, dentro de um curso /

habilitação, o currículo vigente em que o aluno está vinculado,

DIARIO – armazena as disciplinas / turmas com os respectivos alunos, dentro de um semestre

e mês específicos, com informações sobre a situação do aluno nas disciplinas / turmas.

DIASEMANA – armazena os dias da semana que podem ser utilizados quando da confecção

do quadro de horários das disciplinas oferecidas no semestre.

DISCIPLINA – armazena informações sobre as disciplinas (ativas e desativadas) existentes no

cadastro da UFF, e oferecidas para os cursos de graduação ao longo do tempo.

EMENTADISCIPLINA – armazena a ementa das disciplinas oferecidas aos cursos de

graduação da UFF.

ENTIDADES – armazena o código e descrição das entidades que fornecem bolsas aos alunos

de graduação da UFF. Tabela nova para o sistema, não tendo seus dados atualizados para os

alunos.

EQUIVALENCIAS – armazena a equivalência entre disciplinas de currículos diferentes, para os

casos de equivalência 1 para 1, e equivalência 1 para n.

EQUIVALENCIASVINC – armazena a equivalência entre disciplinas de currículos diferentes,

para os casos de equivalência n para 1, e equivalência n para n.

ESTADOCIVIL – armazena o código e a descrição dos tipos de estado civil permitidos.

ESTADOS – armazena os códigos, siglas e descrições das unidades federativas da união.

Atualmente possui carga apenas de 5 estados.

FORMAINGALUNO – armazena os códigos e descrições das formas de ingresso possíveis aos

alunos de graduação da UFF.

GRAU – tabela que armazena os códigos e descrições dos graus acadêmicos da UFF.

Atualmente é utilizado apenas o grau 1, referente aos cursos de graduação.

HISTORICO – tabela que armazena notas e freqüências dos alunos de graduação ao longo de

sua vida acadêmica.

HORARIO – armazena os horários possíveis para o cadastro das turmas oferecidas aos cursos

de graduação da UFF.

INDICETURNO – armazena códigos que identificam se o turno refere-se ao aluno, ao currículo,

ou ao código do curso junto ao INEP.

INGFORMAINGRESSO – armazena a associação entre os códigos de ingresso dos alunos

com suas respectivas formas de ingresso.

INGRESSO – armazena os códigos e descrições dos ingressos permitidos para os alunos de

graduação da UFF, sendo representado na composição da matrícula dos alunos.

LOCALIDADE – armazena os códigos e descrições das cidades onde a UFF possui cursos de

graduação.

LOCALIDADECURSO – armazena a ligação entre os cursos de graduação com as

localidades, além de cadastrar outros dados sobre o curso como: códigos do curso junto ao

INEP (para alunos e docentes), códigos referente ao centro de custo dos cursos, códigos de

carreira dos cursos (referente ao vestibular), entre outros.

MATERIAS – armazena código e descrição das matérias que servem de base à criação das

disciplinas de graduação oferecidas aos cursos de graduação da UFF.

MATERIASMINIMO – armazena o código das matérias que integram o currículo mínimo de

determinado curso / habilitação.

MATRICULAALUNO – armazena dados referentes à matrícula do aluno na universidade,

tendo associação com a tabela DADOSALUNO, através do atributo CODINTERNO.

MOTIVOCURSO – armazena código e descrição dos motivos que ocasionaram mudanças em

um determinado curso de graduação.

MOTIVODESAT – armazena códigos e descrições dos motivos que envolvem as alterações de

disciplinas de graduação da UFF, do cadastro de disciplinas.

NOTASVESTIBULAR – armazena as notas de vestibular dos alunos de graduação da UF, bem

como número de pontos no vestibular, código das etapas das provas, tipos de prova e língua

estrangeira.

PAIS – armazena código e descrição dos países utilizados no cadastro dos alunos de

graduação da UFF.

PERIODIZACAO – armazena código das disciplinas de determinado currículo de curso de

graduação da UFF, distribuindo-as pelos períodos curriculares previstos por cada curso.

Identifica, também, as disciplinas optativas (não ligadas aos períodos curriculares).

PREREQUISITOS – armazena a associação entre as disciplinas de determinado currículo de

curso / habilitação, com sua (s) respectiva (s) disciplina (s) pré-requisito.

QUADRODEDOCENTES – armazena os dados referentes aos docentes alocados em

determinada disciplina / turma, dentro de um semestre / ano.

QUADRODEHORARIOS - armazena os dados referentes aos horários oferecidos para

determinada disciplina / turma, dentro de um semestre / ano, para os cursos de graduação da

UFF.

QUADRODEDISCIPLINAS - armazena os dados referentes ao movimento de vagas oferecidas

e preenchidas de determinada disciplina / turma, dentro de um semestre / ano, para os cursos

de graduação da UFF. Tem o objetivo de produzir informações estatísticas.

QUADRODEVAGAS – armazena os dados referentes à distribuição das vagas oferecidas aos

cursos de graduação da UFF, dentro de um semestre / ano.

RESUMOCURRPLENO – armazena dados resumidos de um determinado currículo de curso /

habilitação, com totais de créditos e horas por tipos de disciplina.

SITUACAOALUNO – tabela que armazena o código e descrição das situações permitidas aos

alunos dentro do semestre atual.

SITUACAODISCIPLINA – armazena códigos e respectivas descrições das situações

permitidas para determinada disciplina no histórico escolar.

TIPODELECAO – tabela que armazena os tipos de ligação dos alunos com o cadastro da UFF,

a saber: ATIVO, FORMADO, CANCELADO, e DESATIVADO.

TIPODISCIPLINA – tabela que armazena os tipos de disciplinas de graduação da UFF que

integram a periodização dos currículos plenos dos cursos de graduação da UFF.

TITULACAO – tabela que armazena os códigos de tipos de titulação (titulação, habilitação,

ênfase ou não informado) relacionados aos cursos / habilitações da UFF.

TURNO – tabela que armazena os códigos e descrições dos turnos utilizados pela UFF, para

alunos, currículo, e turno INEP (ainda não atualizado neste banco de dados).

Quadro 2.1 - Tabelas do esquema acadêmico da UFF

Fonte: UFF

O Anexo 1 traz as chaves das 55 tabelas que compõem o esquema acadêmico

do curso de graduação de engenharia da UFF.

A abrangência temporal do conjunto de dados vai de 1950 a 2005, sendo que

observamos grande variação quanto ao início da abrangência, conforme cada tabela.

Em entrevista ao órgão de Tecnologia da Informação da UFF, fomos

informados que a universidade vinha trabalhando desde 1988 em um ambiente

mainframe.

Utilizavam um banco de dados relacional Supra (da empresa Cincon Systems)

e as linguagens de programação MANTIS (4ª geração), COBOL E ASSEMBLER. O

sistema acadêmico possuía cerca de 1.500 programas e era dotado de mais de 500

telas e cerca de 300 relatórios. Possuía atividades on line (onde os clientes

atualizavam os dados diretamente no sistema) ou batch (onde a equipe de

desenvolvedores atualizava o banco de dados através do processamento de rotinas

com finalidades específicas). O sistema contava com um grupo diversificado de

usuários: a Pró-Reitoria de Assuntos Acadêmicos - PROAC (responsável pela

utilização dos cadastros de cursos, disciplinas, currículos, matérias e alunos), cerca de

70 coordenações de cursos de graduação e 90 departamentos de ensino (os cursos

da UFF estão espalhados em 16 cidades do Estado do Rio de Janeiro).

Logo após a disponibilização dos dados, a UFF criou uma base em ambiente

Oracle para carregar os dados do mainframe, comportando uma base com os dados

dos últimos 5 anos, fora o ano corrente. O computador de grande porte continuou a

operar.

Na migração para o Oracle, algumas tabelas originais foram modificadas e

perderam-se explicações acerca da composição original. Para exemplificar, podem ser

citadas as tabelas “Acompanhamento” e “Acompanhamentodesdobramento” que se

fundiram em uma só tabela, com nova configuração.

2.1 COMPOSIÇÃO DA BASE DE DADOS

Inicialmente foi montado um ambiente virtual, utilizando o Microsoft Virtual PC,

para tratar das conversões de massa de dados. Nesse ambiente se fez necessária a

instalação do Microsoft SQL Server 2000 e do Oracle 10G database, sob o sistema

operacional Microsoft Windows 2003 Server.

A partir do MS SQL Server foi montado um DTS (data transformation service)

para carregar os dados advindos dos arquivos texto. Foi criada uma tabela para cada

arquivo, e uma DTS para cada conjunto de aproximadamente 10 tabelas, totalizando 5

DTS para os 55 arquivos. Essa medida foi tomada porque o uso do DTS permite que

os arquivos texto sejam carregados de forma independente do fabricante do banco de

dados, ou seja, podemos reutilizá-los, se necessário for, para preencher tabelas em

um banco de dados Oracle, DB2 e assim por diante, bastando que para isso se

configure a chave de conexão uma só vez. Toda essa configuração torna o ambiente

flexível e escalável, podendo rodar num computador simples ou num grande servidor.

A máquina virtual possui um endereço IP (TCP/IP: Transfer Control Protocol / Internet

Protocol) próprio e os scripts automatizadores (DTS) que realizam o transporte de

dados para qualquer plataforma.

Foi escolhido para o trabalho o banco de dados da Oracle em virtude da

existência de ferramentas avançadas de Data Mining homologadas e conhecidas para

este banco: ODM (Oracle Data Miner) e JDeveloper.

Na seqüência foram carregadas as tabelas no banco de dados Oracle, onde

foram encontrados alguns problemas descritos a seguir:

• O posicionamento de colunas de uma matricula estava errado

impossibilitando o carregamento da tabela; a matrícula foi excluída;

• O tipo sanguíneo que estava na última coluna da tabela de alunos com um

sinal de + ou – confundiu o script de carregamento impossibilitando-o; foi

adicionada uma coluna vazia no final, para que a última posição fosse um

vazio ao invés do sinal causador do erro;

• A tabela de acompanhamento tinha uma coluna a mais do que estava

descrito na estrutura das tabelas; foi analisado o tipo de dados de todas as

colunas para descobrir qual delas não se encaixava em perfil algum.

Foram montadas as constraints (chaves primárias e estrangeiras) para todas

as tabelas, à exceção de uma, cuja chave primária passada se repetia centenas de

vezes. Essa tabela se referia a dados de alunos, e todos eles se repetiam, ou seja,

cabia decidir pela exclusão de todos os registros repetidos. Com tal decisão, todavia, a

tabela ficou reduzida à metade.

Após passar pela fase de preparação descrita, a base de dados foi reduzida a

51 tabelas. A construção da base de dados no Oracle está representada no Anexo 2.

2.2

SISTEMATIZAÇÃO DO PROCESSO

Este item relata o funcionamento do setor de Tecnologia da Informação da

Universidade Federal Fluminense do Rio de Janeiro – UFF, que atende a secretaria de

graduação e a PROAC.

A Comissão de Seleção Acadêmica - COSEAC, órgão específico da UFF, tem

a responsabilidade de aplicar o vestibular, conforme diretrizes recebidas pela reitoria

da universidade. Em seguida encaminha a relação dos alunos aprovados, com o

resultado das provas do vestibular, para a Secretaria da Graduação. O questionário

sócio-econômico, aplicado quando da inscrição do vestibulando, é de propriedade da

COSEAC, não tendo sido disponibilizado para este trabalho. As disciplinas do

vestibular têm a codificação descrita na Tabela 2.1.

Tabela 2.1: Codificação das provas do vestibular

Código Etapa 1 Etapa 2

1 Português Português

2 Língua Estrangeira Língua Estrangeira

3 História + OSPB História

4 História Geografia

5 Geografia + OSPB Matemática

6 Geografia Física

7 OSPB Biologia

8 Matemática Química

9 Física Redação

10 Biologia -

11 Química -

Fonte: Adaptado a partir dos dados da UFF

A vida acadêmica do aluno se inicia quando ele faz a sua primeira matrícula na

graduação.

Com relação à graduação de Engenharia da UFF, até 1998 os alunos

ingressavam no curso de Engenharia Básica. Depois de cursarem 4 períodos, os

alunos faziam a opção pelo curso específico de engenharia. Somente a partir de 1998

o ingresso passou a ser diretamente no curso específico.

Para cada curso corresponde uma ou mais linhas de ênfase, chamadas de

Habilitação, que traduzem a atuação ou abrangência do curso. Ex. Farmácia,

Farmácia Industrial, Farmácia Bioquímica etc. O aluno ingressa numa habilitação

específica do curso, como Bacharelado, por exemplo. No ano de formando, o aluno

pode pedir permanência de vínculo e cursar mais um ou dois semestres e obter mais

uma habilitação. Nesses casos o aluno recebe o diploma na primeira habilitação e

apostilamento nas seguintes. Dessa forma, podemos encontrar um mesmo aluno com

mais de um registro de matrícula, tendo em vista as possibilidades de alteração de

curso e de habilitação.

A codificação dos cursos de engenharia está descrita no Quadro 2.2.

19 - Engenharia Básica

37 - Engenharia Civil

38 - Engenharia Elétrica

39 - Engenharia Metalúrgica

40 - Engenharia Mecânica

41 - Engenharia de Telecomunicações

42 - Engenharia de Produção

43 - Engenharia Agrícola

45 - Engenharia de Produção (Volta Redonda)

46 - Engenharia Mecânica (Volta Redonda)

Quadro 2.2: Codificação dos cursos de engenharia

Fonte: Adaptado a partir dos dados da UFF

Na UFF, o aluno pode ingressar na graduação das formas apresentadas no

Quadro 2.3.

1 – Vestibular: 1º semestre

2 – Vestibular: 2º semestre

3 – Transferência

4 – Permanência de vínculo

5 – Disciplina isolada

6 – Mudança de curso

7 – Convênio cultural

8 – Reingresso

9 – Mandato de segurança

Quadro 2.3: Formas de ingresso

Fonte: Adaptado a partir dos dados da UFF

A identificação do aluno é feita através da associação de 5 atributos que

correspondem ao seu código da matrícula, a saber:

• CODGRAU (numérico 2) – indicativo do grau. Ex.: 01 = graduação;

• ORDEMMAT (numérico 3) – seqüencial automático que respeita o ano

vigente, o grau e o curso. Ex.: 078;

• CODCURSO (numérico 3) – representação dos diferentes cursos. Ex.: 42 =

Engenharia de Produção;

• ANOMAT (numérico 4) – ano de ingresso do aluno no curso. Ex.: 1995;

• CODINGRESSO (numérico 1) – forma de ingresso. Ex.: 2 = vestibular 2º

semestre.

A gravação no sistema segue a mesma ordenação citada acima. Já a exibição

do código da matrícula em quaisquer documentos ocorre da seguinte forma:

CODINGRESSO + ANOMAT + CODCURSO + ORDEMMAT (+ digito verificador),

respeitando o CODGRAU. Ex.: 2 95 42 078 – 7.

A identificação do aluno ocorre nas demais tabelas através do código interno

(atributo CODINTERNO), que passa a fazer a associação, em substituição à matrícula.

As disciplinas que fazem parte dos currículos são selecionadas pela

coordenação dos cursos, incluindo a matéria de composição. Cada aluno está

vinculado a um currículo e o tipo da disciplina a ser cursada obedece à essa

vinculação, conforme mostra a Tabela 2.2.

Tabela 2.2: Tipos de disciplina

Código Tipo da Disciplina Informação

O obrigatórias fazem parte do currículo do aluno e devem ser

cursadas em determinado período,

obrigatoriamente

Op optativas fazem parte do currículo do aluno e devem ser

cursadas em período a ser escolhido pelo aluno

C complementares Não fazem parte do currículo do aluno e podem

ser cursadas a critério próprio

Fonte: Adaptado a partir dos dados da UFF

A aprovação dos alunos nas disciplinas é compreendida a partir de 3 classes

de notas descritas na Tabela 2.3.

Tabela 2.3: Resultado da avaliação da disciplina

Nota Resultado

Até 3,9 Reprovado

De 4,0 a 5,9 Verificação Suplementar

De 6 a 10 Aprovado

Fonte: Adaptado a partir dos dados da UFF

Pode haver trancamento da matrícula do aluno, por sua solicitação ou

automaticamente, caso ele não se inscreva em disciplina alguma no semestre vigente.

O aluno pode ter até 4 trancamentos, solicitados ou automáticos, durante um

curso/habilitação.

Cada período da vida acadêmica do aluno é expresso pelo tipo de situação

relacionado à matrícula. A UFF tem 11 tipos de situações, descritos no Quadro 2.4.

0 – Inscrito

1 – Não inscrito

2 – Trancado

3 – Abandono

4 – Formando

5 – Interno

6 – Trancamento automático

7 – Trancamento especial

8 – Pendente

9 – Trancamento auto abandono

10 – Afastado

Quadro 2.3: Tipos de situação

Fonte: Adaptado a partir dos dados da UFF

O tipo de situação está associado ao código de deleção, que indica a posição

efetiva do aluno. Os códigos de deleção são os descritos no Quadro 2.4:

0 – Ativo

1 – Cancelado por abandono

2 – Cancelado por ultrapassar o limite de permanência

3 – Desistência após vestibular

5 – Cancelados por mudança de curso

7 – Transferência para outra instituição de ensino

8 – Formados

9 – Cancelados por casos especiais

10 – Cancelados por solicitação do aluno

12 – Reopção Curso

15 – Desistência vaga transferida

17 – Desistência mudança curso

20 – Falecimento

22 – Cancelados por insuficiência de aproveitamento

24 – Cancelados por vestibular trancado no semestre

Quadro 2.4: Códigos de deleção

Fonte: Adaptado a partir dos dados da UFF

Em todas as tabelas existe um atributo denominado ANOSEM (ano/semestre)

que indica quando a operação foi realizada. Logo, o atributo ANOSEM traz a última

atualização efetuada em cada registro.

O tempo de permanência do aluno na UFF varia de acordo com o curso e está

demonstrado na tabela 2.3.

Tabela 2.3: Tempo de permanência na graduação

Tempo de permanência em períodos

Mínimo Médio Máximo Cursos de engenharia

8 10 18 Civil, Elétrica, Mecânica, Telecomunicações e

Agrícola

8 10 16 Metalúrgica

9 10 18 Produção

Fonte: Adaptado a partir dos dados da UFF

2.3 PREPARAÇÃO DA BASE

Como citamos na Introdução deste trabalho, os dados precisam passar por

etapas imprescindíveis de preparação, organização e pré-processamento, para que

sejam convertidos em informação útil e passível de aplicação.

BRAGA (2005) orienta sobre o papel conceitual dos dados, como fonte de

informação no processo de mineração. O autor destaca três princípios que devem ser

considerados, sob o ponto de vista filosófico:

• A informação está nos dados

• O trabalho deve ser desenvolvido nos dados

• A qualidade dos dados é critica e de muito mais importância do que a

quantidade

O autor destaca também cinco características que devem ser obedecidas na

capacitação e manutenção dos dados:

• Acurácia – os dados devem se apresentar sem erros de medição ou

digitação

• Consistência – devem fazer sentido

• Completude – não podem existir campos faltantes

• Relevância – concernentes ao problema

• Não redundância – não duplicação da mesma informação.

A base de dados, uma vez constituída, deve ser analisada com vistas à

redução do número de amostras, de atributos e de variáveis, ou seja, a eliminação de

dados irrelevantes ou pouco relevantes. Estas etapas são importantes porque dados

inúteis podem causar precariedade ao modelo criado.

Este item demonstra as etapas de limpeza e depuração dos dados, a partir da

forma original recebida. Foram desconsiderados os dados faltantes e desprezados os

dados inconsistentes (e aberrantes). É importante registrar que optamos por não

efetuar qualquer alteração nos dados originais, uma vez que as variáveis estavam

expressas de forma conveniente à pesquisa. Porém, em determinados momentos

como veremos adiante, foi preciso efetuar releitura de dados para a criação de

variáveis categóricas. A base foi reduzida a um tamanho administrável, visando

favorecer o tratamento dos dados e consequentemente a concisão e o entendimento.

2.3.1 Organização e pré-processamento

A primeira providência tomada foi a criação da chave indexada “MATRÍCULA”,

e a sua utilização em substituição aos atributos: CODGRAU + ORDEMMAT +

CODCURSO + ANOMAT + CODINGRESSO.

Em seguida, cada tabela da base original foi verificada quanto ao conjunto e a

consistência dos dados, para obtermos o máximo de integridade possível na busca

dos atributos e variáveis que seriam mais eficientes na análise do cenário da

graduação de engenharia.

A tabela Acompanhamento Desdobramento “ACOMPDESDOBR” foi escolhida

como ponto de partida para os trabalhos de análise, tendo em vista ser a única tabela

onde se encontramos os códigos que definem a situação final do aluno: o código de

deleção.

Inicialmente utilizamos o critério de separação das ocorrências da tabela

ACOMPDESDOBR pelo maior código de deleção (MAXCODDELECAO), uma vez que

a situação “Ativo” corresponde ao código de deleção “0” e os demais códigos (que

representam deleção de fato) são maiores que 0. Diversas análises foram feitas a

partir do grupamento gerado, assim como estatísticas e quadros comparativos.

Posteriormente extraímos uma nova visão da tabela ACOMPDESDOBR, só

que adotando como critério a data de atualização do código de deleção: atributo

ANOSEM. Para surpresa foram encontrados outros totais de ocorrências por código

de deleção: ainda que teoricamente cada matrícula só devesse corresponder a um tipo

de deleção, algumas matrículas tinham transitado em mais de um código de deleção

(diferente de 0). A tabela 2.3.1.1 demonstra o grupamento final da tabela

ACOMPDESDOBR, conforme o código de deleção correspondente a última

atualização registrada.

Tabela 2.3.1.1: Base de dados original (por código de deleção)

Código de deleção Registros Grandeza

0 – Ativos 3.040 46,36%

8 – Formados 1.373 20,94%

3 - Desistência após vestibular 845 12,89%

1 - Cancelados por abandono 724 11,04%

24 - Cancelados por vestibular trancado no semestre 149 2,27%

10 - Cancelados por solicitação do aluno 114 1,74%

7 - Transferência para outra instituição de ensino 102 1,56%

22 - Cancelados por insuficiência de aproveitamento 90 1,37%

9 - Cancelados por casos especiais 64 0,98%

5 - Cancelados por mudança de curso 45 0,69%

2 - Ultrapassar limite de permanência 3 0,05%

15 - Desistência vaga transferida 3 0,05%

17 - Desistência mudança curso 3 0,05%

20 – Falecimento 2 0,03%

12 - Reopção Curso 1 0,02%

Tabela Acompanhamentodesdobramento 6.558 100,0%

Fonte: A autora

Para os códigos de deleção relacionados a seguir, que também fazem parte do

esquema acadêmico recebido, não foram encontradas quaisquer ocorrências na base

de dados (Quadro 2.3.1.1).

4 = Cancelado por desdobramento interrompido

11 = Cancelado por opção de curso

13 = Cancelado por alteração de matrícula

14 = Cancelado por deslocamento interno

16 = Cancelado por desistência de reingresso

18 = Cancelado por desistência de vaga deslocamento interno

19 = Cancelado por liminar cassada

21 = Cancelado por permanência de vínculo

23 = Cancelado por término regulamentar

25 = Cancelado por motivos disciplinares

Quadro 2.3.1.1 Códigos de deleção sem registros

Fonte: Adaptado a partir dos dados da UFF

A partir da tabela ACOMPDESDOBR foi realizada uma análise da quantidade

de dados disponíveis por ano de matrícula e por forma de ingresso, tendo-se chegado

aos números representados na Tabela 2.3.1.2.

Tabela 2.3.1.2: Base de dados original (por código do curso)

MATRÍCULAS NOS CURSOS DA GRADUAÇÃO DE ENGENHARIA

ANO

MAT

Básica Civil Elétrica Metal Mecân Telecom Produção Agríc

Produção

VRed.

Mecân

VRed.

TOTAL

1954 1 1

1956 1 1

1957 1 1

1960 1 1

1962 1 1

1969 3 1 4

1970 1 1

1971 2 2

1972 2 1 3

1973 1 1 1 3

1974 2 4 1 1 8

1975 1 2 3

1976 2 1 3

1977 5 5

1978 1 1

1979 4 1 5

1980 5 1 6

1981 7 1 8

1982 2 1 3

1983 3 2 5

1984 2 1 3

1985 2 1 3

1986 3 1 4

1987 4 1 1 3 9

1988 1 1 3 6 1 12

1989 3 2 1 1 7

1990 2 1 2 7 2 14

1991 8 7 3 10 7 8 43

1992 2 7 6 3 7 14 17 1 57

1993 23 6 2 9 18 22 80

1994 17 1 4 7 22 23 74

1995 3 47 8 7 28 53 70 1 217

1996 2 23 9 15 15 79 110 253

1997 33 14 80 17 90 115 349

1998 6 21 13 77 23 106 116 362

1999 66 83 74 63 68 63 25 442

2000 79 107 66 76 95 67 31 521

2001 74 71 61 69 86 82 40 63 56 602

2002 103 107 81 105 134 109 93 82 88 902

2003 105 116 66 100 140 114 72 69 65 847

2004 121 94 63 78 144 99 93 78 66 836

2005 107 88 64 91 123 158 98 65 62 856

TOTAL 64 844 735 684 706 1201 1176 454 357 337 6.558

Fonte: A autora

A referência ao período de 1954 a 1994 remonta a 371 registros,

correspondendo a apenas 5,7% do total. Decidimos por redimensionar a base,

passando-se a considerar a abrangência de 11 anos, de 1995 a 2005, passando o

número total de registros de referência para 6.187 matrículas.

Com relação às formas de ingresso, verificou-se que o “ingresso por vestibular”

representava 94% do total. Das demais, cinco formas de ingresso inviabilizavam a

análise quanto ao tempo de permanência, uma vez que não obedecem a qualquer

fixação de tempo: Transferência, Permanência de vínculo, Disciplina isolada, Mudança

de curso e Reingresso. Restavam as formas de ingresso “Convênio cultural” e

“Mandato de segurança” que apresentavam freqüência irrelevante. Ficou estabelecido

apenas “vestibular” como critério de análise do atributo “forma de ingresso”.

Chegou-se, portanto, à base redimensionada de 5.820 matrículas –

representativa dos alunos egressos por vestibular nos anos de 1995 até 2005.

A base foi dividida para possibilitar a análise em grupos de mesma relevância,

conforme demonstrado na Tabela 2.3.1.3, a seguir.

Tabela 2.3.1.3: Agrupamento dos códigos de deleção para análise

Código de deleção / Descritivo Repres.

Grupo

0 – Ativos

49,09% 2.857

8 – Formados

17,71%

1.031

3 - Desistência após vestibular

14,52%

845

1 - Cancelados por abandono

16,49%

606

24 - Cancelados por vestibular trancado no semestre

149

10 - Cancelados por solicitação do aluno

102

22 - Cancelados por insuficiência de aproveitamento

9 - Cancelados por casos especiais

17 - Desistência mudança curso

7 - Transferência para outra instituição de ensino

2,18%

5 - Cancelados por mudança de curso 43

20 – Falecimento

12 - Reopção Curso

Total de matrículas a serem analisadas 5.820 2.857 1.031 845 960 127

Fonte: A autora

Com relação aos grupos instituídos para análise, com vistas à segurança e à

consistência dos dados, foram novamente empregados dois critérios para confronto: 1-

por “tempo de permanência”, observando as datas de matrícula (DATA_MAT), de

atualização dos dados (ANO_SEM), e da abrangência temporal da massa de dados

(2º semestre de 2005); e 2- por “coeficiente de rendimento”, que resulta de uma

fórmula composta pelo somatório dos produtos obtidos com as notas nas disciplinas

cursadas e a carga horária das mesmas, dividido pelo somatório das cargas horárias.

Os resultados foram os seguintes, por grupo de análise:

Grupo 1: Ativos

Constavam da nova base 2.857 registros com o código de deleção 0 – Ativos.

Foram encontradas: 2 matrículas de 1995 que ainda permaneciam no código de curso

19 - Engenharia Básica (quando já deveriam ter sofrido conversão para um código

específico da engenharia); e 15 matrículas anteriores a 2005 que ainda registravam

coeficiente de rendimento igual a zero. Sob suspeição de erro na atualização do

código de deleção as 17 matrículas foram retiradas da base.

Os registros de Ativos passaram para 2.840 matrículas.

Grupo 2: Formados

Constavam da nova base 1.031 registros com o código de deleção 8 –

Formados. Não constavam registros de alunos formados nos cursos 45 (Engenharia

de Produção – Volta Redonda ) e 46 (Engenharia Mecânica – Volta Redonda ) porque

ambos se iniciaram em 2001 e a base de dados abrange atualizações que foram feitas

até o 2º semestre de 2005.

Foram encontradas 11 matrículas com o tempo de permanência no curso

variando de zero a 5 semestres. Os registros foram retirados da nova base, dada a

probabilidade de não terem sido ingressos por vestibular, devido ao tempo mínimo

exigido para realização dos cursos.

Os registros de Formados passaram para 1.020 matrículas.

Grupo 3: Desistência após vestibular

Constavam da nova base 845 registros com o código de deleção 3 –

Desistência após vestibular. Foram encontradas 10 matrículas com coeficiente de

rendimento maior que zero, indicando que houve nota em disciplinas cursadas. Tais

matrículas foram convertidas para um código 99, criado para representar outros casos

de cancelamento efetivo da matrícula do aluno. Tendo em vista a falta de dados para o

não ingresso no curso, dado o caráter subjetivo da desistência antes da entrada, os

835 registros de Desistência após vestibular foram retiradas da nova base de dados.

Grupo 4: Cancelamentos efetivos

Constavam da nova base 960 registros com códigos de deleção que indicam

abandono dos cursos da engenharia, significando cancelamentos de fato, a saber: 1 -

Cancelados por abandono; 9 - Cancelados por casos especiais; 10 - Cancelados por

solicitação do aluno; 17 - Desistência mudança curso; 22 - Cancelados por

insuficiência de aproveitamento e 24 - Cancelados por vestibular trancado no

semestre. Ao grupo foi incluído o código 99, representando as 10 matrículas advindas

do código 3 - Desistência após vestibular. Os registros de Cancelados passaram para

970 matrículas.

Grupo 5: Outros cancelamentos

Constavam da nova base 127 registros com códigos de deleção que indicam

cancelamento da matrícula, mas não traduzem uma situação de abandono que se

configure em objeto de análise. São eles: 5 - Cancelados por mudança de curso; 7 -

Transferência para outra instituição de ensino; 12 - Reopção de curso e 20 –

Falecimento. Os 127 registros foram retirados da base.

Finda a análise de consistência por agrupamento dos códigos de deleção,

retiramos 962 registros da nova base, que passou a representar 4.830 matrículas.

Foram criadas 3 categorias para fins de classificação de dados. As categorias

representam a situação do agrupamento dos códigos de deleção pertinentes,

conforme demonstrado na Tabela 2.3.1.4.

Tabela 2.3.1.4: Síntese do agrupamento dos códigos de deleção

Situação

por Curso

19 37 38 39 40 41 42 43 45 46

Total

Básica Civil Eletr Metal Mecan Telecom Produção Agric

Prod

Mec

Ativos 0 359 340 277 304 416 361 271 269 243 2.840 59%

Formados 0 108 56 69 66 297 420 4 0 0 1.020 21%

Cancelados 4 103 119 163 128 176 109 92 29 47 970 20%

Total

4 570 515 509 498 889 890 367 298 290

4.830

100%

Representação

dos Cancelados

18% 23% 32% 26% 20% 12% 25%

Só se

iniciaram

em 2001

20%

Fonte: A autora

Até então a base de dados estava composta por matrículas, entretanto sem

associação à vida curricular. Agregamos então a tabela “Diário”, que carregava todas

as inscrições em disciplinas e os seus resultados. E para significar o peso da disciplina

no currículo, agregamos também o atributo Tipodisciplina (O, Op, C), carregado da

Tabela Periodização.

Como etapa de redução de variáveis, intervimos na situação dos alunos (8

códigos de deleção) nas notas das disciplinas (de 0 a 10,0) e no tempo de

permanência (de 0,5 a 12,0 períodos). Foram criadas as classes que seriam utilizadas

como variáveis de saída. As classes passaram a funcionar como atributos categóricos,

correspondentes a agrupamento ou intervalo de dados, conforme a tabela Tabela

2.3.1.5.

Tabela 2.3.1.5: Categorização

Atributos Composição Variáveis

Situação Agrupamento dos códigos de deleção

correspondentes

A – Ativos

F – Formados

C – Cancelados

ClasseNota Intervalos de notas que determinam o

resultado do aluno na disciplina:

A – De 6 em diante

B – De 4 a 5,9

C – Até 3,9

D – Sem nota

A – Aprovado

B – Verificação suplementar

C – Reprovado

D - Desistiu

ClasseTempo Representação a partir do tempo médio

de permanência admitido para o aluno no

curso, entre períodos cursados e

trancados.

X – até 10 períodos,

inclusive

Y – acima de 10 períodos

Fonte: A autora

Os seguintes atributos passaram a compor a base:

• Matricula – criada com a associação dos 5 atributos que compunham a chave

• Anosemmat – ano/semestre correspondente à matrícula

• Curso – código do curso específico da graduação de engenharia

• Anosematual – ano/semestre correspondente à situação da matrícula

• Anosemdiario – ano/semestre do curso da disciplina; lançamento no Diário

• Disciplina – codificação atribuída à disciplina

• Tipodisciplina – categorização do tipo da disciplina (O, Op, C)

• Nota – valor conseguido na disciplina na primeira verificação

• Notavs – valor conseguido na disciplina na verificação suplementar

• Coeficienterendimento – Coeficiente de rendimento que resulta de uma

fórmula composta pelo somatório dos produtos obtidos com as notas nas

disciplinas cursadas e a carga horária das mesmas, dividido pelo somatório

das cargas horárias.

• NumCredReq – Número de créditos requeridos na disciplina

• NumCredObt – Número de créditos obtidos na disciplina

• Situação – A, F, C

• Classenota – A, B, C, D

• Classetempo – X, Y

O atributo “disciplina” foi selecionado para saneamento dos valores faltantes

(missing values), partindo-se do princípio de que o atributo é indispensável no

entendimento da vida do aluno na graduação. Logo, todas as matrículas que não

apresentavam inscrição em disciplina foram excluídas da base.

A BASENOVA foi montada a partir dessa depuração, correspondendo a

177.833 tuplas (linhas) e 15 atributos o que totalizava 2.667.495 registros, um grande

volume de dados a ser minerado. A necessidade de redimensionamento da base e/ou

da redução de atributos e variáveis só foi percebida através dos resultados da

aplicação das técnicas de mineração de dados, em um processo constante de busca,

análise e reorganização da base.

2.4 DADOS A SEREM MINERADOS

Neste item descrevemos como a BASENOVA foi passando por

redimensionamentos, em correspondência às necessidades apontadas pelas

atividades de mineração de dados.

Algumas tabelas da massa de dados original eram alvos de consultas

constantes e, paulatinamente, tiveram alguns dados incorporados às novas bases

criadas.

Apresentamos a seguir um esquema da composição da BASENOVA e das

tabelas periféricas (Figura 2.4.1).

Figura 2.4.1: Esquema de composição da BASENOVA

Fonte: A autora

Os resultados das pesquisas ainda estavam pulverizados nas diversas

variáveis e não apresentavam coerência. Na montagem da base estavam

considerados, em relação à situação das matrículas: 59% Ativos; 21% Formados e

20% Cancelados. Entretanto os resultados se direcionavam às situações Ativos e

Formados, em 80% dos casos. Ainda que se desconsiderasse a situação Ativo (59%)

o fenômeno se repetia porque os alunos Ativos e Formados detinham uma quantidade

de registros muito maior do que os Cancelados, dado o seu histórico de inscrição em

disciplinas. Foi necessário construir outra base focada no problema: o que, dentre os

dados que dispomos, pode levar um aluno ao abandono do curso? A partir daí foram

feitos filtros sucessivos, passando-se a considerar nos Atributos: Situação: somente

igual a C (cancelado); Tipo disciplina: somente igual a O (obrigatória) e Classe nota:

diferente de A (aprovado), conforme mostra a Figura 2.4.2.

NOVABASE

Coeficienterend

NumCredReq

NumCredObt

Curso

Anosem_atual

PERIODIZACAO

DIARIO

Disciplinas

HISTORICO

Categoria

Disciplina

(O, Op, C)

CLASSE

TEMPO

Anosem_diario

Nota

Nota vs

Nota

CLASSE

NOTA

SITUAÇÃO

MATRICULA

ACOMPANHA

MENTO

ACOMPANHA

MENTO_DESD

OBRAMENTO

Codigo de

dele

ão

Cálculo da

ermanência

Matrículas:

Anosem_mat

> = 1995_1

Ingresso <=2

(vestibular)

Figura 2.4.2: BASENOVA1

Fonte: A autora

Esta atualização fez reduzir o número de tuplas (linhas) de 177.833 para

primeiramente 7.357 tuplas, e com o critério das disciplinas obrigatórias para

simplesmente 5.403 tuplas. O número de reprovações nas disciplinas obrigatórias,

apenas na base de Cancelados, somou 5.363 casos, correspondendo às 117

disciplinas. Construímos uma nova base ainda mais focada, trazendo as disciplinas

que mais reprovavam. Para a construção da view perguntamos pelas disciplinas que

ocasionaram mais de 20 reprovações. Chegamos a 32 disciplinas, 4.865 casos,

correspondendo a 91% do total. Analisando o resultado, verificamos que 18 dessas

disciplinas tinham uma participação inferior a 2%, ou seja, apenas 14 disciplinas

totalizavam 4.153 casos, correspondendo a 77% de participação. A ordenação das 14

disciplinas está apresentada na Tabela 2.4.1. A descrição dos comandos em SQL de

todas as construções está no Anexo 3 e a relação descritiva das 32 disciplinas pode

ser encontrada no Anexo 4.

BASENOVA

PERIODIZACAO

Categoria

Disci

lina

SITUAÇÃO

CLASSE

NOTA

Somente ‘O’

Somente ‘C’

‘B’, ‘C’, ‘D’

Tabela 2.4.1: Disciplinas obrigatórias que mais reprovam na base de Cancelados

Disciplinas Casos

1 GMA04043 Cálculo Diferencial e Integral Aplicado I 761 14%

2 GFI05100 Física Geral e Experimental XVIII 674 13%

3 GAN06118 Álgebra Linear Aplicada 515 10%

4 GGM02055 Introdução à Geometria Descritiva 418 8%

5 TCC03060 Introdução à Informática 350 7%

6 TCC03063 Programação de Computadores III 234 4%

7 GMA06074 Cálculo Diferencial e Integral Aplicado II 206 4%

8 GMA04004 Cálculo Diferencial e Integral IV 171 3%

9 GMA06071 Equações Diferenciais Aplicadas 156 3%

10 GFI05102 Física Geral e Experimental XX 155 3%

11 GFI05101 Física Geral e Experimental XIX 151 3%

12 GGM03077 Geometria Descritiva VI 130 2%

13 GET04021 Estatística XI 126 2%

14 TEP03041 Fundamentos de Economia 106 2%

Disciplinas que mais reprovam 4153 77%

Demais disciplinas 712 23%

Total 4865 100%

Fonte: A autora

Para facilitar o acompanhamento do trabalho, estamos substituindo a descrição

da disciplina GFI05100 “Física Geral e Experimental XVIII”, conforme consta das

tabelas da UFF, para “Física I”, tendo em vista tratar-se da primeira disciplina de

Física encontrada. As demais seguem a mesma simplificação, ou seja, Física XIX para

Física II etc.

Visando demonstrar a interdependência das disciplinas obrigatórias mais

relevantes, com relação aos pré-requisitos, elaboramos um esquema contextualizando

as 14 disciplinas que mais reprovam – destacadas na Figura 2.4.2.

Figura 2.4.2: Interdependência das disciplinas

Fonte: A autora

A título de comentário quanto à interdependência, chamamos atenção para a

disciplina Cálculo II (GMA06074) que é pré-requisito para 6 outras disciplinas, e para a

disciplina (GFI05103) que tem 4 disciplinas como pré-requisito, apesar de não figurar

no grupo das 14 disciplinas que mais reprovam.

Com a etapa de Preparação dos Dados concluída, chegamos a BASENOVA

final (a 8ª versão construída) correspondendo a 817 matrículas distintas e mantendo

as 32 disciplinas (91% da base de Cancelados), compostas em 4.865 tuplas (ou

linhas).

Com relação à Classe da Nota, a base final ficou constituída por 121 registros

na classe B (verificação suplementar = 2,5%), 3.042 registros na classe C (reprovados

= 62,5%) e 1.702 na classe D (sem nota = 35%).

Com relação à Classe do Tempo, a base final ficou constituída por 3.814

registros na classe X (abandonos no prazo de 5 anos = 78,4% da base) e 1.051 na

classe Y (após 5 anos = 21,6%).

Cálculo I

Álgebra

Cálculo II

Fí

sica I

Física III

Física II

Estatístic

Mec.Ger

Equações

Química II

Cálculo

Física IV

Sist.Isost. Mecânica I

Mat.Const

Fen.Trans

Int.Inform

Prog.Comp

F.En

.Eco

Int.Geom.

Met.En

Geom.Descr

Fund.Econ.

Int.Met.Num

3 MINERAÇÃO DE DADOS

O conhecimento encontrado nos dados vem fascinando o mundo. As

informações e o conhecimento descobertos têm sido aplicados no gerenciamento dos

negócios, no controle da produção, nas análises de marketing, nas áreas de

engenharia, na exploração científica etc.

Só que “os dados estão por aí”, como dizem os professores. Culturalmente não

nos preocupamos com os dados e nem estamos acostumados a preparar e organizar

nossos registros nem tampouco temos acesso a eles, depois de “usados”. A verdade é

que, para que sejam convertidos em informação útil e passível de aplicação, os dados

precisam passar por etapas imprescindíveis de preparação, organização e pré-

processamento. Antes de tudo, os dados precisam ser resgatados e armazenados em

bases, comumente chamadas de bancos de dados.

A partir da preocupação com o dado, e da necessidade do seu armazenamento

em bases, foram criadas derivações dos bancos de dados através de técnicas que

filtram o que se precisa especificar. Conforme o tempo foi passando, e o volume

desses bancos se transformou em grandes massas de dados, novos processos foram

criados para resgate dos dados e concatenação das informações, como o processo de

data warehousing. A criação de um Data Warehouse (DW) é considerada como um

dos primeiros passos para viabilizar a análise de grandes massas de dados

(REZENDE, 2003). O DW, ou armazéns de dados, são implementações de bancos de

dados relacionais que seguem uma filosofia cujo norte é permitir a construção de um

ambiente para análise de dados, e diferentes maneiras de vê-los e organizá-los.

Segundo um dos pais do conceito, Bill Inmon, reconhecido como o idealizador

do processo de data warehousing, o DW é “um conjunto de dados baseado em

assuntos, integrado, não-volátil e variável em relação ao tempo, de apoio às decisões

gerenciais” (INMON, 2002). Desdobrando as características de um DW elencadas pelo

autor, temos:

• organizado por assunto: os dados são organizados por com assunto ao

invés de usar uma abordagem que vê os dados como de um sistema. Assim

o foco fica na área de conhecimento/negócio e no modelo de decisão da

organização.

• integrado: há um padrão quanto as métricas, e o domínio dos dados é

normalizado; não há conceitos modelados de maneiras diferentes,. Por

exemplo, várias aplicações podem codificar o dado “sexo” assumindo

diferentes domínios: em uma poderia ser codificado como “M” e “F”, em outro

-1 e 0 ou ainda “H” e “M” . Para que os dados sejam trazidos para o DW eles

devem assumir uma convenção, por exemplo “H” e “M”.

• variante no tempo: O conceito de data warehouse em si contempla que os

dados são apresentados ao longo do tempo, daí a dimensão (forma de

visualizar os dados) TEMPO é presente no DW, como uma forma de

representar os Fatos (registros de medições), permitindo comparação,

previsão, análise de tendências etc.

• não-volátil: O dados que são trazidos para o data warehouse não são

atualizados ou mudados.

Harrisson (1998) ampliando a definição de Inmon: “um data warehouse deve

também conter dados precisos e completos. Deve ser capaz de apoiar todas as

necessidades analíticas do usuário. Tendo como princípio dar condições ao usuário

para lidar com os aspectos críticos do gerenciamento do negócio, estas condições são

baseadas nos assuntos necessários ao sucesso do negócio, em vez de se prender a

aspectos operacionais”.

Dodge e Gormam (2000) declaram que “DW não é um projeto, pois um projeto

tem um início, um cronograma que determina o fim do projeto; o projeto tem definido

os resultados esperados e as restrições do projeto; um projeto tem orçamento e tem

designado os recursos necessários. O mais importante, o projeto tem definido um

prazo de finalização. O data warehouse é implementado em uma série de

miniprojetos, cada qual deve ter todas as características assim descritas”.

Outro autor importante sobre o assunto, o americano Ralph Kimball, define o

DW como: “uma fonte de dados que possui a capacidade de consultar as informações

da organização. O data warehouse é na realidade uma união de todas as bases de

dados constituintes da organização. O DW é alimentado por uma área especial que

prepara os dados para serem utilizados. O gerenciamento do DW é responsável tanto

pela busca das informações desejadas quanto pela preparação destas informações”.

(KIMBALL, 2002)

Assim, ainda que de maneira simplista, podemos ver o DW como um banco de

dados construído a partir de diversas fontes de dados, baseado em uma analogia com

um armazém da vida real, idealizado como uma grande escala de coleção e

armazenagem, organizando áreas de dados legados. REZENDE (2003) acrescenta:

“... que contenha dados limpos, agregados e consolidados que possam ser analisados

por ferramentas OLAP (On-Line Analytical Processing)” . A Figura 3.1 demonstra a

relação.

Figura 3.1: Relação entre Base de Dados, Data Warehouse e Mineração de Dados

Fonte: Sistemas Inteligentes Fundamentos e Aplicações (REZENDE, 2003)

O desenvolvimento de um DW específico para um assunto é um Data Mart,

desenvolvido através da construção de um cubo, com fatos (assuntos) e dimensões

(uso, tempo, medidas). A partir do DW os dados são distribuídos para os Data Marts,

projetados para serem acessados pelo próprio usuário, e utilizados como suporte a

decisão. Enquanto o DW foi projetado para gerenciar um grande estoque de dados, os

Data Marts foram projetados para gerenciar pequenos pacotes de dados específicos,

que têm a finalidade de apresentar as seleções destes dados ao usuário final. Em

síntese, enquanto o DW filtra, o Data Mart foca.

Como vimos, os grandes bancos de dados não mais permitem tratamento

manual. Neste ponto se encontra a ênfase da mineração de dados: a capacidade de

extração do conhecimento contido em um grande volume de dados.

A Mineração de Dados (MD), do termo inglês Data Mining, é o processo de

vasculhar de maneira metódica, e orientada, um conjunto grande de dados à procura

de padrões, seqüências temporais e regras de associação que explicitem de alguma

maneira a relação entre dados (ou variáveis). Com isso o resultado tende a ser a

geração de uma nova coleção de dados, que represente uma sentença estabelecida

pela regra ou padrão.

A MD surgiu do Knowledge Discovery on Databases – KDD, um processo

maior que abrange as áreas de análise de base de dados, aprendizado de máquina,

estatística e matemática, sistemas especialistas e visualização de dados. O KDD visa

a obtenção de conhecimento a partir de grande massa de dados, utilizando para tanto

as técnicas, algoritmos e métodos de tais disciplinas, e da confluência entre elas. O

KDD é referenciado na literatura como um “campo de pesquisa”. Alguns autores

distinguem os processos de KDD e MD (Fayyad, Piatetsky-Sahapiro e Smyth 1996).

Podemos dizer que a MD é uma etapa da KDD. Entretanto, também podemos dizer

que a linha divisória entre os processos é tênue, tendo em vista o objetivo comum de

descoberta do conhecimento.

Simplificando, a MD trata-se de um conjunto de técnicas para recuperação de

dados e busca por informações “ocultas” numa grande massa de dados, usando para

isso técnicas sofisticadas que vão da estatística à inteligência computacional.

Conforme Han e Kamber (2001) a mineração de dados seria melhor

denominada por “knowledge mining from data”. Os autores admitem que a criação de

bancos de dados remonta à 1960. A partir daí, os bancos de dados (e a tecnologia da

informação) tem evoluído de forma surpreendente, dos sistemas de processamento de

dados primitivos para os poderosos e sofisticados sistemas de bancos de dados. A

Figura 3.2 traz essa representação.

Figura 3.2: Relação entre Base de Dados, Data Warehouse e Mineração de Dados

Fonte: Data Mining Concepts and Techniques (HAN; KAMER, 2001)

Han e Kamber (2001) propõem as seguintes etapas num processo de

mineração de dados:

1ª – Data cleaning: remoção de ruídos e dados inconsistentes;

2ª – Data integration: onde as múltiplas fontes dos dados podem ser

combinadas

3ª – Data selection: onde os dados relevantes à tarefa da análise são

recuperados da base de dados;

4ª – Data transformation: onde os dados são transformados ou consolidados

nos formulários apropriados para mineração

;

5ª – Data mining: um processo essencial onde os métodos inteligentes são

aplicados a fim de se extrair padrões dos dados;

6ª – Pattern evaluation: para identificar os padrões mais interessantes para a

representação do conhecimento, baseado em algumas medidas de

interessabilidade;

7ª – Knowledge apresentation: onde as técnicas de representação e de

visualização do conhecimento são usadas para apresentar o conhecimento

minerado.

Uma tendência popular da indústria da informação é representar as etapas de preparação dos

dados (data cleaning) e integração dos dados (data integration) como uma etapa de ‘pré-

processamento’ onde os dados resultantes são armazenados em um datawarehouse. (nota dos

autores)

Ás vezes a transformação e a consolidação dos dados são realizadas antes do processo de

seleção dos dados, em particular nos casos de armazenamento dos dados (datawarehousing).

(nota dos autores)

A Figura 3.3 representa as etapas em um processo de mineração.

Figura 3.3: Data Mining as a step in the process of knowledge discovery

Fonte: Data Mining Concepts and Techniques (HAN; KAMBER, 2001)

Resumidamente, a implementação de um projeto de mineração de dados deixa

claras três etapas imprescindíveis: 1- a definição do problema, 2- a aquisição e

avaliação dos dados, 3- a extração de características e destaques.

3.1 TÉCNICAS UTILIZADAS

Dentre as funcionalidades da mineração de dados existe a especificação do

tipo de padrão que pode ser encontrado na tarefa de mineração. Usualmente tais

padrões possuem duas classificações:

• descritiva: caracterizam as propriedades gerais do dado dentro da base;

• preditiva: fazem inferências nos dados correntes visando fazer predições.

Indo além, a mineração de dados permite que se façam análises sob diferentes

níveis de abstração. Isto significa que permite que palpites, pistas, intuições sejam

seguidos e quiçá transformados em padrões interessantes, sem que isso incorra em

custos adicionais. A mudança de foco é favorecida.

Regras de Associação

Dentre as técnicas de mineração mais utilizadas encontra-se a Análise de

Associações (Association Analysis), ou Regras de Associação. A técnica consiste

na descoberta de regras que mostram condições nos valores dos atributos que

sugerem padrões de associação. A análise por regras de associação tem origem nos

estudos de Marketing, sendo bastante utilizada na composição de “cestas”. A Figura

3.1.1 mostra essa analogia.

Figura 3.1.1: Market basket analysis

Fonte: Data Mining Concepts and Techniques (HAN; KAMBER, 2001

)

As regras de associação buscam satisfazer uma condição encontrada em mais

de um atributo. Na composição das regras de associação são consideradas duas

métricas: o suporte (support), i.e. a freqüência com que os dados aparecem no

conjunto de dados, e a confiança (confidence), que indica a probabilidade de

associação entre os dados selecionados. Portanto, um suporte de 0,2 para uma Regra

de Associação indica que apenas 2% de todas as transações sob análise estão

aparecendo juntas. Da mesma forma, um nível de 2% de confiança estabelece esse

grau de garantia dos itens estarem agrupados na mesma “cesta”. Os níveis de suporte

e confiança são medidas de interessabilidade da regra criada. Apenas os especialistas

do negócio analisado podem estipular os níveis mínimos que interessam para análise.

As Regras de Associação oferecem possibilidades de análises

multidimensionais. Com base nos resultados são tomadas decisões de negócios e

podem ser traçadas novas estratégias de atuação.

Neste trabalho estamos utilizando a variável “Disciplina” como objeto de análise

de Regras de Associação.

Classificação

Uma outra técnica de mineração de dados bastante incentivada é a

Classificação (Classification). Trata-se do processo de busca de um conjunto de

modelos ou funções que identifiquem e descrevam classes ou conceitos. O propósito é

o de viabilizar a utilização de um modelo de predição de uma classe de objetos cujo

pertencimento ainda é desconhecido. A Classificação também é utilizada para

qualificar o conjunto de dados. O modelo obtido é derivado da análise de um conjunto

de dados de treinamento. Tais modelos podem ser representados por várias formas de

regras de classificação: do tipo “if-then”, fórmulas matemáticas ou redes neurais, e

ainda por árvores de decisão (decision trees) que se constituem num tipo largamente

utilizado.

A árvore de decisão é um desenho esquemático da estrutura de uma árvore,

onde cada nó demonstra um teste em um valor de um atributo, cada galho representa

um outcome do teste, e cada folha representa uma classe. As árvores de decisão

podem ser revertidas em regras de classificação.

Como predição, a Classificação é utilizada de forma abrangente na

identificação de tendências.

De acordo com Ham e Kamber (2003), o processo de Classificação está

compreendido em duas etapas (Figura 3.1.2).

Na primeira etapa, um modelo é construído descrevendo um conjunto pré-

determinado de classes e conceitos. O modelo é construído pela análise das tuplas da

base de dados descrita pelos atributos. Assume-se que cada tupla pertença a uma

determinada classe, conforme a definição da variável de saída (class label attribute).

Sempre que existe a determinação da variável de saída, a etapa também é conhecida

como “classificação supervisionada” (supervised learning), ou seja, já é dito a qual

classe cada exemplo pertence. No caso contrário (unsupervised learning or clustering),

há necessidade de se descobrir as classes dos dados, utilizando o processo de

Clusterização. Usualmente, o modelo é apresentado sob a forma de regras de

classificação, de árvores de decisão ou de regras matemáticas. As regras são

utilizadas para categorizar os dados e trazer um melhor entendimento sobre o

conteúdo da base de dados.

Na segunda etapa, o modelo é usado para classificação. Primeiramente é

estimado o nível de precisão do modelo, para fins de predição (accuracy). Se o

modelo for considerado aceitável, pode ser usado para predição, ou seja, para

classificar dados futuros nos quais a classe não for conhecida.

Figura 3.1.2: The data classification process

Fonte: Data Mining Concepts and Techniques (HAN; KAMBER, 2001)

A MD está sendo considerada como a mais importante fronteira nos sistemas

de bancos de dados e uma das mais promissoras no desenvolvimento interdisciplinar

da indústria da informação. Envolve a integração de técnicas advindas de várias

disciplinas, tais como: técnicas de banco de dados, estatística, aprendizado de

máquina, computação de alto desempenho, reconhecimento de padrões, redes

neurais, processamento de imagens e de sinais, análise de dados espaciais, entre

outras. Este é um ponto bastante positivo tendo em vista que hoje em dia não existem

mais pesquisam encapsuladas numa só área.

Este trabalho limita a consideração da MD sob a perspectiva da análise de

banco de dados, e somente aplicando as técnicas de Regras de Associação e de

Classificação do tipo Supervisionada.

3.2 COMPONENTE ORACLE DATA MINER

“Programa bom tem que ter interface”, os professores costumam repetir.

Quando se exporta os dados para leitura por outro sistema é comum que se precise

corrigir formatos. Também é comum que junto com os dados também se exportem

erros e ocorram problemas de integração. O ambiente único é o grande desafio da

tecnologia da informação. A integração dos sistemas é absolutamente saudável para

os dados. Baseado nesta premissa, foi escolhido o ORACLE Data Miner (ODM) como

ferramenta de mineração de dados, dada a necessidade de um programa integrado à

nossa base de dados em ORACLE. Todas as análises foram feitas de forma acoplada,

em um único ambiente. A decisão nos trouxe o desafio de utilizar uma ferramenta sem

a devida disponibilidade de publicações a respeito. O único livro sobre as técnicas de

mineração de dados aplicadas à ferramenta Oracle Data Mining, editado nos Estados

Unidos, não foi entregue, apesar da antecedência do pedido (Oracle Data Mining and

Search; Ron Hardman; 550 páginas; MC-Graw - Hill Osborne Media; 2008). Apenas os

Helps da ferramenta foram os orientadores e condutores das elaborações e análises

realizadas.

Utilizamos para esta pesquisa a versão 10.2 do ORACLE Data Miner que

disponibiliza nove funções para mineração de dados (model type function).

Transcrevemos a seguir a descrição da funções, conforme informações

disponibilizadas na própria ferramenta ODM (tradução livre):

Anomaly Detection - Detecção de Anomalias

Uso: Os padrões binários de algoritmos de classificação supervisionada

requerem a presença de exemplos positivos e negativos para a classe alvo. A

Detecção de Anomalias requer apenas a presença de exemplos de uma única classe-

alvo. Na detecção de outliers, exemplos típicos na distribuição são separados do

exemplo atípico (outlier).

Algoritmo: One-Cass Support Vector Machine

Association Rules - Regras de Associação

Uso: Modelos de associação são frequentemente usados para medir

desempenhos do tipo “market basket analysis” (análise da cesta de compras) para

descobrir relacionamentos ou correlações entre um conjunto de casos (exemplos).

Tais modelos são amplamente usados nas análises de marketing direto, desenho de

catálogos e outros negócios relacionados à tomada de decisão em marketing e

vendas.

Algoritmo: Apriori

Attribute Importance – Importância de Atributo

Uso: Ranqueamento dos atributos de predição através da eliminação da

redundância, irrelevância ou não uniformidade dos atributos. Também identifica quais

atributos podem ter maior influência na construção das predições.

Algoritmo: Minimum Description Lenght

Classification - Classificação

Uso: Em um problema envolvendo classificação, existe um número de casos

(exemplos) e se precisa prever a quais classes pertencem. Os atributos preditores são

compostos por diversos valores possíveis (variáveis independentes) e um atributo alvo

(variável dependente). Cada um dos possíveis atributos-alvo é uma classe passível de

predição.

Algoritmos: Adaptive Bayes Network, Decision Tree, Naive Bayes e Support

Vector Machine

Clustering - Agrupamento

Uso: Na descoberta de grupos naturais (clusters) dentro dos dados. Membros

de um mesmo cluster são similares, são mais próximos deles mesmos do que de

outros clusters. A clusterização também pode ser usada como uma etapa de pré-

processamento dos dados para identificar grupos homogêneos ou para construir

modelos preditivos.

Algoritmos: K-Means e O-Cluster

Feature Extraction – Extração de Destaques

Uso: Criação de um novo conjunto de características através da decomposição

dos dados originais. A feature é a combinação de atributos nos dados que carregam

detalhes especiais e que apresentam características de maior realce. A Feature

Extraction possibilita a descrição dos dados com um número de características bem

menor do que na dimensão original. “Feature extraction lets you describe the data with

a number of features far smaller than the number of original dimensions (attributes).”

Algoritmo: Non-Negative Matrix Factorization

Regression – Regressão

Uso: Modelos de Regressão são modelos preditivos. A diferença entre

regressão e classificação é que a regressão tem atributos-alvo numéricos e contínuos,

enquanto a classificação é realizada com dados discretizados ou atributos-alvo

categóricos.

Algoritmo: Support Vector Machine

A Figura 3.2.1 mostra a tela inicial de navegação do Oracle Data Miner, quando

da abertura do “Mining Activities”.

Figura 3.2.1: ODM - Mining Activities

Fonte: ORACLE Data Miner versão 10.2

Na elaboração deste trabalho foram selecionadas duas técnicas de mineração

de dados:

1ª: Regras de Associação: utilizamos o algoritmo “Apriori”, partindo-se de um

atributo conseqüente para no máximo três atributos antecedentes. A Figura 3.2.2

mostra a inicialização da ferramenta Oracle Data Miner para aplicação de regras de

associação.

Figura 3.2.2: ODM - Select Mining Activity Type – Association Rules

Fonte: ORACLE Data Miner versão 10.2

2ª: Regras de Classificação: utilizamos o algoritmo “árvores de decisão”,

adotando-se o tipo Supervisionada, uma vez que as classes já eram conhecidas. A

Figura 3.2.3 mostra a inicialização da ferramenta Oracle Data Miner para aplicação de

regras de classificação.

Figura 3.2.3 : ODM - Select Mining Activity Type – Classification

Fonte: ORACLE Data Miner versão 10.2

A efetividade quanto à utilização do ORACLE Data Miner (ODM) ficou

evidenciada durante a execução dos trabalhos, tendo em vista a interação do

programa com o usuário e a sua performance. Os resultados obtidos estão apontados

nos capítulos específicos.

4 REGRAS DE ASSOCIAÇÃO

Para a criação das regras de associação devem ser sugeridos os níveis de

suporte e confiança do modelo. O suporte indica a freqüência com que os dados

aparecem associados. Logo, suporte alto significa freqüência alta. O suporte é medido

em números decimais. Um suporte igual a 1,0 representa totalidade na freqüência. Já

a confiança indica o grau de certeza na associação dos dados, ou seja, ainda que a

freqüência seja baixa, sempre que os dados aparecem existe associação entre eles. A

confiança é medida em pontos percentuais, logo 100% indica o grau de confiança

total.

Considera-se um nível de suporte de 0,8 e um grau de confiança de 90% como

bons níveis para construção de regras de associação.

Na geração das regras seleciona-se uma variável conseqüente e procura-se

descobrir quais antecedentes podem determiná-la.

As regras são construídas através da busca de associação entre antecedentes

e conseqüentes e nas variações de suporte e confiança.

4.1 CONSTRUÇÃO

O ODM disponibiliza um único algoritmo para a criação de regras de

associação. Trata-se do algoritmo “Apriori”. O Apriori é um algoritmo influente para

mineração. O nome do algoritmo vem do fato de utilizar conhecimento prévio (prior

knowledge) das propriedades de composição e freqüência de itens. (JIAWEI;

KAMBER, 2001).

A proposta da regra de associação é basicamente mostrar quais valores de

variáveis, quando relacionados, podem trazer significado e incrementar determinada

ação. No nosso caso, os valores correspondem às disciplinas do curso de engenharia

e a ação é o abandono do curso.

Buscamos compor as cestas para a criação das regras, com os valores

relativos à variável “Disciplina”, apenas os 32 itens que mais reprovaram (vide 2.4),

em consideração aos seguintes atributos:

• Classe da nota: B = Avaliação Suplementar, C = Reprovado e D =

Abandonou (a classe A = Aprovado, não faz parte da base);

• Classe do tempo: X = até 5 anos e Y = além de 5 anos

• Código do curso: (vide 3.3.3);

• Coeficiente de rendimento: somatório dos produtos das notas nas

disciplinas cursadas e a carga horária das mesmas, dividido pelo somatório

das cargas horárias.

A seguir apresentamos as regras geradas e os comentários respectivos:

1º MODELO

: Foca “Disciplinas”, considerando a Classe da nota e a Classe

do tempo (Figuras 4.1.1 a Figuras 4.1.5).

Etapa: Indicação da construção das regras

Figura 4.1.1: ODM – Association Rules – Build – 1º Modelo

Fonte: ORACLE Data Miner versão 10.2

Etapa: Obtenção das regras

Figura 4.1.2: ODM – Association Rules – Get Rules – 1º Modelo

Fonte: ORACLE Data Miner versão 10.2

O Oracle Data Miner criou 15.872 regras. Para que sejam visualizadas é

necessário pressionar “Get Rules”.

Etapa: Visualização das regras

Figura 4.1.3: ODM – Association Rules – Selection – 1º Modelo

Fonte: ORACLE Data Miner versão 10.2

Na seleção das regras que se quer visualizar, podemos informar quais valores

interessam como “antecedentes” (if) e “consequentes” (then). Deve-se reconfigurar ou

validar os níveis de suporte e confiança das regras a serem resgatadas.

Etapa: Obtenção das regras com seleção

Figura 4.1.4: ODM – Association Rules – Selection 2 – 1º Modelo

Fonte: ORACLE Data Miner versão 10.2

A revisão dos critérios é necessária principalmente quando da criação de

muitas regras (15.872 neste modelo). Do contrário fica impossível a obtenção das

regras, o que acarreta uma mensagem de erro. Neste modelo foram escolhidas como

antecedentes as disciplinas: GFI05100 (Física I), GMA04004 (Cálculo IV), GMA04043

(Cálculo I) e GMA06074 (Cálculo II) e foram retirados os valores de suporte e

confiança mínimos requeridos.

Etapa: Disponibilização das Regras

Figura 4.1.5: ODM – Association Rules – BUILD – Result - 1º Modelo

Fonte: ORACLE Data Miner versão 10.2

Como os valores mínimos de suporte e confiança foram retirados, o sistema

retornou com as regras que apresentaram suporte e confiança de 100%.

RESULTADO DO 1º MODELO

: Para as 15.872 regras, foram retornadas 100

regras, com suporte e confiança de 100%. Foram gerados 7 valores conseqüentes e,

para cada um deles, foram criadas de 13 a 15 regras (Tabela 4.1.1).

Tabela 4.1.1: Regras do 1º Modelo

1º MODELO

DISCIPLINAS (com CLASSENOTA e CLASSETEMPO)

(condition)

Then

(association)

(condition)

Then (association)

GGM03077

GFI05102

14 regras

GFI05102

GMA06071

15 regras

GMA04004 GGM03077

GMA04043 GMA04004

GMA06071 GMA04043

GMA06074 GMA06074

TCC03063 TCC03063

GFI05102

GGM03077

13 regras

GFI05102

GMA06074

15 regras

GMA04004 GGM03077

GMA04043 GMA04004

GMA06071 GMA04043

GMA06074 GMA06071

TCC03063 TCC03063

GFI05102

GMA04004

14 regras

GFI05102

TCC03063

15 regras

GGM03077 GGM03077

GMA04043 GMA04004

GMA06071 GMA04043

GMA06074 GMA06071

TCC03063 GMA06074

GFI05102

GMA04043

14 regras

GGM03077

GMA04004

GMA06071

GMA06074

TCC03063

Fonte: A autora.

As regras criadas, levando-se em conta a variável Classe da Nota e a variável

Classe do Tempo, foram associadas ao mesmo conjunto de disciplinas, entre si,

conforme listamos a seguir:

• GFI05102 – Física Geral e Experimental XX

• GGM03077 – Geometria Descritiva VI

• GMA04004 – Cálculo Diferencial e Integral IV

• GMA04043 – Cálculo Diferencial e Integral Aplicado I

• GMA06071 – Equações Diferenciais Aplicadas

• GMA06074 – Cálculo Diferencial e Integral Aplicado II

• TCC03060 – Introdução à Informática

2º MODELO:

Foca “Disciplinas”, considerando o Coeficiente de Rendimento

(Figura 4.1.6).

Etapa: Disponibilização das Regras

Figura 4.1.6: ODM – Association Rules – BUILD – Result – 2º Modelo

Fonte: ORACLE Data Miner versão 10.2

Foram geradas 314 regras nesse 2º modelo. A ordenação das regras pode ser

feita pelos níveis de suporte ou de confiança, conforme o critério de análise. Neste

caso foi feita a ordenação pelo valor de confiança.

RESULTADO DO 2º MODELO

: Para as 314 regras geradas, foram retornadas

100 regras, variando entre os níveis de suporte de 0.76 a 0.11 e os níveis de confiança

entre 96% e 6,6%. Cumpre lembrar que este modelo está considerando o coeficiente

de rendimento, que tem grande intervalo numérico e não foi categorizado. Portanto,

dada a variação dos coeficientes de rendimento, os níveis de suporte também são

variados (e não poderiam ser elevados). Para a análise das regras utilizamos como

filtro o nível de Confiança de 67%, resultando em 43 regras. Essas regras

representavam 7 valores conseqüentes e para cada um deles foram criadas de 2 a 11

regras (Tabela 4.1.2).

Tabela 4.1.2: Regras do 2º Modelo

2º MODELO

DISCIPLINAS (com COEFICIENTE DE RENDIMENTO)

If (condition) Then (association) If (condition) Then (association)

GET04021

GAN06118

8 regras

GAN06118

GFI05101

2 regras

GFI05100 GMA06074

GGM02055 GAN06118

GMA04043

11 regras

GGM03077 GET04021

GMA04043 GFI05100

TCC03060 GFI05101

TCC03063 GGM02055

TEC03188 GGM03077

GAN06118

GFI05100

10 regras

GMA06074

GFI05101 GQI04019

GFI05102 TCC03060

GGM02055 TCC03063

GGM03077 TEC03188

GMA04043 GMA04004

GMA06071

3 regras

GMA06074 GFI05100

GQI04019 GFI05102

TCC03060 GAN06118

GMA06074

5 regras

TCC03063 GET04021

GAN06118

GGM02055

3 regras

GFI05100

GFI05100 GFI05101

TCC03060 TCC03063

Fonte: A autora

As associações foram feitas entre 7 valores (disciplinas), sendo que o conjunto

de regras para o valor conseqüente GMA04043 (Cálculo I), com 11 regras neste

exemplo, se associa a maior parte das disciplinas (não todas).

Das 43 regras sob análise, selecionamos as regras com suporte acima de

0.589 - dentro do nível de confiança de 67%. A Tabela 4.1.3 traz o resultado.

Tabela 4.1.3: Melhores Regras do 2º Modelo

2º MODELO

DISCIPLINAS (com COEFICIENTE DE RENDIMENTO)

Combinação de Confiança: acima de 67,0% e de Suporte: acima de 0.58

Rule

If (condition)

Then

(association)

Confidence

(%)

Support

(%)

238 TCC03063= 1 AND GET04021= 1 GMA06074= 1 81.8 58.9

185 GFI05100= 1 AND TEC03188= 1 GAN06118= 1 80.0 61.1

298 GFI05102= 1 AND GMA06071= 1 GMA04004= 1 76.2 69.8

243 GFI05100= 1 AND GFI05101= 1 GMA06074= 1 72.9 76.4

186 GAN06118= 1 AND GFI05101= 1 GMA04043= 1 72.5 63.3

211 GMA06074= 1 AND GAN06118= 1 GMA04043= 1 72.5 63.3

297 GMA04004= 1 AND GFI05102= 1 GMA06071= 1 71.1 69.8

175 GMA06074= 1 AND GAN06118= 1 GFI05100= 1 70.0 61.1

163 GAN06118= 1 AND GFI05101= 1 GFI05100= 1 67.5 58.9

190 GMA06074= 1 AND GAN06118= 1 GFI05101= 1 67.5 58.9

189 GAN06118= 1 AND GFI05101= 1 GMA06074= 1 67.5 58.9

Fonte: A autora

Verificamos as citações a cada disciplina, nas 11 regras selecionadas, e

encontramos também 11 disciplinas associadas neste modelo. Segue a descrição das

disciplinas, com o devido ranking de associações:

• GAN06118 – Álgebra Linear Aplicada = 7 associações

• GMA06074 – Cálculo Diferencial e Integral Aplicado II = 6 associações

• GFI05101 – Física Geral e Experimental XIX = 5 associações

• GFI05100 – Física Geral e Experimental XIII = 4 associações

• GMA04004 – Cálculo Diferencial e Integral IV = 2 associações

• GMA04043 – Cálculo Diferencial e Integral Aplicado I = 2 associações

• GMA06071 – Equações Diferenciais Aplicadas = 2 associações

• GFI05102 – Física Geral e Experimental XX = 2 associações

• GET04022 – Estatística XI = 1 associação

• TCC03063 – Programação de Computadores III = 1 associação

• TEC03188 – Metodologia Científica para Engenharia = 1 associação

3º MODELO: Foca “Disciplinas”, considerando o Curso (Figura 4.1.7).

Etapa: Disponibilização das regras

Figura 4.1.7: ODM – Association Rules – BUILD – Result – 3º Modelo

Fonte: ORACLE Data Miner versão 10.2

Na etapa de obtenção das regras do 3º modelo, para que as mesmas fossem

disponibilizadas, foram retirados os níveis de suporte e confiança. E como foram

geradas 15.476 regras, o sistema retornou apenas com as regras que apresentaram

suporte e confiança de 100%.

RESULTADO DO 3º MODELO

: Para as 15.476 regras, foram retornadas 100

regras, com suporte e confiança de 100%. Foram gerados 7 valores conseqüentes.

Para cada um dos valores conseqüentes foram criadas de 13 a 15 regras, associadas

ao mesmo conjunto de disciplinas (as 7 disciplinas entre si). As disciplinas que fazem

parte das regras que consideram a variável “Curso” são as seguintes:

• GFI05101 – Física Geral e Experimental XIX

• GFI05102 – Física Geral e Experimental XX

• GMA04043 – Cálculo Diferencial e Integral Aplicado I

• GMA06071 – Equações Diferenciais Aplicadas

• GMA06074 – Cálculo Diferencial e Integral Aplicado II

• TCC03059 – Introdução aos Métodos Numéricos

• TCC03063 – Programação de Computadores III

CONSIDERAÇÕES SOBRE OS MODELOS DE REGRAS DE ASSOCIAÇÃO

O 1º e o 3º modelos trouxeram apenas regras com níveis totais de confiança e

suporte, ambas apresentando 7 valores conseqüentes, e as disciplinas por si já

formavam um padrão. Já o 2º modelo trouxe regras de todos os níveis de suporte e

confiança, principalmente porque focava um atributo com valores muito diversificados,

sem categorização. Na consolidação do resultado dos modelos, verificamos que as

disciplinas em destaque continuam sendo praticamente as mesmas, apesar de termos

32 disciplinas na nossa base final.

Seguem as disciplinas recorrentes, considerando-se os três modelos de

Regras de Associação criados:

• GFI05102 – Física Geral e Experimental XX = nos 3 modelos

• GMA04043 – Cálculo Diferencial e Integral Aplicado I = nos 3 modelos

• GMA06071 – Equações Diferenciais Aplicadas = nos 3 modelos

• GMA06074 – Cálculo Diferencial e Integral Aplicado II = nos 3 modelos

• GFI05101 – Física Geral e Experimental XI = em 2 modelos

• GMA04004 – Cálculo Diferencial e Integral IV = em 2 modelos

• TCC03063 – Programação de Computadores III = em 2 modelos

A partir do conhecimento explicitado nos modelos gerados, podemos

considerar que as disciplinas listadas como recorrentes sugerem padrões de

associação no que se refere ao abandono dos cursos de engenharia.

5 CLASSIFICAÇÃO

Como já citado neste trabalho, a Classificação é amplamente utilizada quando

se precisam explicitar regras que suportem um padrão descritivo ou que sustentem as

predições de classes que agrupam casos (exemplos) a partir de um alvo (target).

Dentre os atributos da base deve ser selecionado um atributo, a título de

variável de saída, que vem a ser o target da construção da regra. A variável de saída,

ou target, deve ser categórica. Conforme as regras forem geradas, eliminam-se as

regras que não tiverem relevância ou apresentarem baixa relevância, com base no

conhecimento sobre o assunto.

As regras construídas podem ser do tipo “surpreendentes”, ou seja, padrões

dos quais não se tinha previsão. Também podem ser do tipo “acionáveis”, porque

implicam em uma ação, a partir da constatação julgada oportuna por um especialista

do negócio em questão. (LIU, 2000)

5.1 CONSTRUÇÃO

Dos quatro algoritmos disponibilizados pelo ODM, optamos por gerar o

classificador através do algoritmo “árvore de decisão”, porque promove um

entendimento maior e viabiliza a construção de regras.

Na construção das regras foram utilizados os atributos:

• Código da disciplina: apenas a lista das 32 disciplinas que mais reprovam;

• Classe da nota: B = Avaliação Suplementar, C = Reprovado e D =

Abandonou (a classe A = Aprovado, não faz parte da base);

• Classe do tempo: X = até 5 anos e Y = além de 5 anos (tomando-se como

base o tempo médio de permanência nos cursos, conforme os critérios da

UFF: vide Tabela 2.3);

• Código do curso: (vide Quadro 2.2);

• Coeficiente de rendimento: somatório dos produtos das notas nas disciplinas

cursadas e a carga horária das mesmas, dividido pelo somatório das cargas

horárias.

A seguir apresentamos as principais análises geradas e os comentários

respectivos. No primeiro exemplo, demonstraremos o passo-a-passo do ODM para a

construção da Classificação.

1ª ANÁLISE:

DISCIPLINAS e CURSOS (Figuras 5.1.1 a 5.1.8).

Etapa: Seleção dos atributos a serem considerados e da variável de saída, alvo

ou target.

Figura 5.1.1: ODM – Classification - Review Data Usage Settings – 1ª análise

Fonte: ORACLE Data Miner – versão 10.2

A ferramenta exibe todos os atributos da base de dados. A indicação em “Input”

representa os atributos que devem ser considerados para análise: CODCURSO e

CODDISCIPLINA, no caso. A indicação em “Target” representa o foco da análise, ou

seja, a variável de saída que está sendo colocado como alvo na descoberta do

conhecimento: CODDISCIPLINA, no caso.

Etapa: Denominação da regra de classificação

Figura 5.1.2 : ODM – Classification – Activity Name – 1ª análise

Fonte: ORACLE Data Miner – versão 10.2

Nesta etapa é escolhido um nome para a análise que está sendo gerada, assim

como é registrado um comentário que explique os atributos escolhidos e o que se

espera obter. Nesse momento, pode-se mencionar o valor escolhido da variável de

saída para teste da análise (valor que será informado na etapa seguinte). No caso, foi

escolhida a disciplina Cálculo I.

Etapa: Escolha do valor da variável de saída que melhor testa o modelo.

Figura 5.1.3: ODM – Classification – Select Preferred Target Value – 1ª análise

Fonte: ORACLE Data Miner – versão 10.2

Conforme comentado no parágrafo anterior, esta etapa representa a seleção

do valor da variável de saída que melhor testa a análise: foi escolhida a disciplina

GMA04043 - Cálculo Diferencial e Integral Aplicado I.

Etapa: Disponibilização do resultado da análise

Figura 5.1.4 : ODM – Classification – BUILD – Result – 1ª análise

Fonte: ORACLE Data Miner – versão 10.2

Nesta etapa, o ODM apresenta os estágios da análise (Sample / Split / Build /

Test Metrics) e disponibiliza os resultados (Result).

Etapa: Apresentação da Árvore construída

Figura 5.1.5 : ODM – Classification – Tree (nível 0: true) – 1ª análise

Fonte: ORACLE Data Miner – versão 10.2

Foram geradas 2984 casos. Observa-se que o nível de suporte se mantém

proporcional nas 3 primeiras regras: 0,8006 para 9 cursos; 0,6582 para 8 cursos;

0,5241 para 5 cursos. Na primeira regra, o curso 41 (Eng. de Telecomunicações) foi o

único valor não considerado, significando que o mesmo não faz parte do padrão de

80% na freqüência observada. Já na segunda regra excetua-se também o curso 42

(Eng. de Produção), também significando que na frequência de 65,8% os cursos 41 e

42 não são encontrados. Em todas as regras verificam-se níveis de confiança

inexpressivos, podendo significar que a identificação do curso foi irrelevante para esta

análise.

Na representação da variável de saída (Target Values), feita em gráfico de

colunas, vemos a disposição quantitativa das disciplinas, de acordo com a regra

selecionada na Árvore demonstrada na figura anterior.

Etapa: Representação das Folhas da Árvore

Figura 5.1.6 : ODM – Classification – Tree (leaves only) – 1ª análise

Fonte: ORACLE Data Miner – versão 10.2

Através da observação das Folhas, tendo a disciplina GMA04043 (Cálculo I)

como foco, observa-se a seguinte variação de suporte: 0,1994 para o curso 41 (Eng.

de Telecomunicações); 0,1424 para o curso 40 (Eng. Mecânica); 0,1357 para o curso

43 (Engenharia Agrícola); 0,1210 para o curso 38 (Eng.Elétrica) e 0,1160 para o curso

43 (Eng. Agricola). Entretanto, é interessante observar que para o curso 42 (Eng. de

Produção) o resultado da análise trouxe como foco a disciplina GFI05100 (Física Geral

e Experimental I) com um um suporte de 14,24%, o que pode significar uma relevância

maior da disciplina especificamente para a Eng. de Produção. Entretanto, o baixo nível

de confiança em todos as regras desta análise reforça a inexpressividade da

consideração do curso.

Para o gráfico de colunas selecionamos a regra explicitada para o valor

GFI05100 (Física Geral e Experimental I): o nível de suporte se mantém em 13,4%

para os cursos 39 (Engenharia Metalúrgica), 45 (Engenharia de Produção – Volta

Redonda) e 46 (Engenharia Metalúrgica – Volta Redonda). Porém, como os cursos 45

e 46 só se iniciaram 2001, a ênfase do suporte está no curso 39. Importante também

observar que essa regra apresenta o maior nível de confiança do modelo: 30,25%

(folha 14).

Etapa: Nível de confiança como Modelo de Predição

Figura 5.1.7: ODM – Classification – Results (Predictive Confidence) – 1ª análise

Fonte: ORACLE Data Miner – versão 10.2

Nesta etapa, o modelo de predição é comparado ao método Naive Bayes.

Verifica-se que o modelo criado não apresenta desempenho superior ao método.

Etapa: Demonstração da acurácia do modelo, conforme a variável de saída:

Figura 5.1.8: ODM – Classification – Results (Accuracy) – 1ª análise

Fonte: ORACLE Data Miner – versão 10.2

Com relação à precisão, observa-se que o modelo criado só dá garantias

quanto às disciplinas GMA04043 (63,73% para predição) e GFI05100 (36,43%).

2ª ANÁLISE: DISCIPLINAS com CLASSE DA NOTA (Figura 5.1.9).

Etapa: Apresentação da Árvore construída

Figura 5.1.9: ODM – Classification – Árvore da 2ª análise

Fonte: ORACLE Data Miner – versão 10.2

Nesta análise, também foi dado foco à disciplina GMA04043 (Cálculo I). Foram

criadas 2 regras, uma para as Classes B e D (suporte de 38%, apontando para a

disciplina GFI05100 (Física I) e outra para a Classe C (suporte de 62%, também

voltada para a GMA04043). Pela sua frequência (suporte de 0,62), destacamos a

segunda regra que indica que a disciplina GMA04043 leva à classe C (nota abaixo de

4,0) significando reprovação sem direito à verificação suplementar.

3ª ANÁLISE:

DISCIPLINAS com CLASSE DA NOTA e CURSOS (Figuras

5.1.10 e 5.1.11)

Etapa: Apresentação da Árvore

Figura 5.1.10: ODM – Classification – Árvore da 3ª análise

Fonte: ORACLE Data Miner – versão 10.2

Nesta análise, também foi dado foco à disciplina GMA04043 (Cálculo I).

Verificam-se os mesmos resultados quando das classificações feitas separadamente,

por curso e por classe nota. Mantém-se a observação de irrelevância da variável

“curso” considerando-se as métricas de suporte e confiança. Conforme se observa nas

regras de classificação, todos os cursos da graduação de engenharia apresentam o

mesmo padrão com relação às disciplinas que mais reprovam.

Etapa: Demonstração da exatidão do modelo, conforme a variável de saída:

Figura 5.10.11: ODM – Classification – Accuracy – 3ª análise

Fonte: ORACLE Data Miner – versão 10.2

Em termos de exatidão, o modelo dá ênfase às disciplinas GMA04043 (Cálculo

I = 44,41%), GFI05100 (Física I = 42,01%) e GAN06118 (Álgebra Linear = 11,36%).

4ª ANÁLISE:

DISCIPLINAS e CLASSE DO TEMPO (Figuras 5.10.12 a

5.10.18).

Etapa: Apresentação da Árvore (nível 0)

Figura 5.1.12: ODM – Classification – Árvore da 4ª análise

Fonte: ORACLE Data Miner – versão 10.2

Nesta análise, manteve-se o foco na disciplina GMA04043 (Cálculo I).

Na classificação levando-se em conta a classe relativa ao tempo de

permanência do aluno, no nível 0, temos novamente a distribuição das disciplinas,

com a criação de apenas 2 regras, uma para X (até 5 anos de permanência) e uma

para Y (além de 5 anos). Para a Classetempo X (até 5 anos) encontramos um nível de

0,7872 de suporte.

Etapa: Apresentação da Árvore (Regra 1)

Figura 5.1.13: ODM – Classification – Árvore da 4ª análise – Regra 1

Fonte: ORACLE Data Miner – versão 10.2

Destacamos no gráfico a regra 1, criada para a Classetempo Y (além de 5

anos), aparecendo a disciplina GMA04004 (Cálculo Diferencial e Integral IV) como a

mais representativa do abandono dos alunos depois de 5 anos de curso (suporte de

0,2128).

Etapa: Apresentação da Árvore (Regra 2)

Figura 5.1.14: ODM – Classification – Árvore da 4ª análise – Regra 2

Fonte: ORACLE Data Miner – versão 10.2

Na regra 2, criada para a Classetempo X, retorna a disciplina GMA04043

(Cálculo Diferencial e Integral I) como valor principal. Interessante observar a

redistribuição das disciplinas no gráfico de colunas (target values).

Etapa: Configuração da Árvore

Figura 5.1.15: ODM – Classification – Build Setting - 4ª análise

Fonte: ORACLE Data Miner – versão 10.2

Observamos em Build Settings os parâmetros adotados na configuração usada

na construção da árvore.

Etapa: Nível de confiança como Modelo de Predição

Figura 5.1.16: ODM – Classification – 4ª análise

Fonte: ORACLE Data Miner – versão 10.2

Novamente comparado ao modelo Naive Bayes, o modelo não apresenta

resultados superiores.

Etapa: Demonstração da exatidão do modelo, conforme a variável de saída:

Figura 5.1.17: ODM – Classification – Accuracy 4ª análise

Fonte: ORACLE Data Miner – versão 10.2

Em termos de precisão, este modelo só oferece garantias para as disciplinas

GMA04004 (Geometria Analítica = 77,14%) e GMA04043 (Cálculo I = 97,97%).

Etapa: Demonstração do desempenho do classificador utilizando o gráfico ROC

Figura 5.1.18: ODM – Classification – ROC - 4ª análise

Fonte: ORACLE Data Miner – versão 10.2

Nesta figura indica-se a demonstração do desempenho do classificador

utilizando o gráfico ROC correspondente ao modelo.

5º ANÁLISE:

DISCIPLINAS com CLASSE DA NOTA e CLASSE DO TEMPO

(Figura 5.1.19).

Etapa: Apresentação da Árvore

Figura 5.1.19: ODM – Classification – 5ª análise

Fonte: ORACLE Data Miner – versão 10.2

Continuamos com o foco na disciplina GMA04043 (Cálculo I). Na comparação

das Disciplinas com classenota e classetempo, chamamos atenção para a regra 2

(folha 5) que associa a Classenota C à Classetempo X, com um suporte de 0,4745.

6ª ANÁLISE:

CLASSE DA NOTA e DISCIPLINAS (Figuras 5.1.20 a 5.1.22).

Etapa: Apresentação da Árvore

Figura 5.1.20: ODM – Classification – Árvore - 6ª análise

Fonte: ORACLE Data Miner – versão 10.2

Para o alvo Classe da Nota foi dado o valor C (notas abaixo de 4,0) como foco.

Esta análise traz 2 grupos de disciplinas que levam à reprovação: um grupo com

suporte de 0,6283 e confiança de 61,66% e outro com suporte de 0,3717 e confiança

de 64,61%.

Etapa: Apresentação da Árvore (nível 0)

Figura 5.1.21: ODM – Classification – Árvore - 6ª análise – nível 0

Fonte: ORACLE Data Miner – versão 10.2

No gráfico, verifica-se a expressividade da classe D (disciplinas sem nota =

35% da base) e a baixa incidência da classe B (verificação suplementar = 2,5%). As

incidências na classe B não foram objeto de análise porque o aluno posteriormente

recebe uma nota correspondente à segunda avaliação, o que o insere na classe C

(reprovação = 62,5%) ou na classe A (aprovação), que foi expurgada da base final.

Etapa: Demonstração da acurácia do modelo, conforme a variável de saída

Figura 5.1.22: ODM – Classification – Árvore - 6ª análise - Acurácia

Fonte: ORACLE Data Miner – versão 10.2

A análise demonstra 100% de assertividade para a Classe C (reprovados),

como modelo de predição.

7ª ANÁLISE:

CLASSE DO TEMPO e DISCIPLINAS (Figuras 5.1.23 a 5.1.25)

Etapa: Apresentação da Árvore

Figura 5.1.23: ODM – Classification – Árvore - 7ª análise

Fonte: ORACLE Data Miner – versão 10.2

Nesta análise por Classe de Tempo, apesar de ter sido escolhido o valor Y

para foco (após 5 anos), verifica-se predominância da Classe X (até 5 anos) com

suporte de 0,6639 e confiança de 95,86%, o que representa absoluta relevância em

termos de interessabilidade.

Etapa: Apresentação da Árvore – Regra 1

Figura 5.1.24: ODM – Classification – Árvore - 7ª análise – Regra 1

Fonte: ORACLE Data Miner – versão 10.2

Na Regra 1 (Folha 3) verifica-se que a classe Y (além de 5 anos) está afeta às

disciplinas listadas com confiança de 0,6887 - apesar do baixo suporte de 22,38%.

Etapa: Apresentação da Árvore – Regra 2

Figura 5.1.25: ODM – Classification – Árvore - 7ª análise – Regra 2

Fonte: ORACLE Data Miner – versão 10.2

Na Regra 2 (Folha 6) verifica-se um altíssimo nível de confiança (97,15%), com

suporte de 0,

5654, associado à classe X (até 5 anos). A relação é estabelecida às

disciplinas: GAN06118 (Álgebra Linear), GFI05100 (Física I), GGM02055 (Introdução à

Geometria), GMA04043 (Cálculo I) e TCC03060 (Introdução à Informática).

Lembrando que estamos utilizando para a construção das regras apenas os dados

referentes aos “Cancelados”, ou seja, alunos que se evadiram, observa-se que as

disciplinas convergem para o elenco já trazido pelas análises e modelos anteriores.

Considerações sobre as análises das regras de classificação

Como consideração sobre a atividade de Regras de Classificação, aplicada na

base de dados preparada, podemos mencionar que:

• A modalidade do curso de engenharia não interfere com relevância

no que se

refere às disciplinas que mais reprovam (e acarretam em abandono).

• Os alunos que abandonam os cursos, o fazem no prazo de 5 anos em 79%

dos casos.

• A incidência de reprovação na disciplina (classe C = nota menor que 4,0)

corresponde a 62,5% do total dos casos, sendo também considerável os

casos em que a avaliação não é sequer realizada (classe D = disciplina sem

nota) que representa 35% dos casos observados.

• As disciplinas que aparecem como recorrentes nas regras construídas,

representando aquelas que mais causam reprovação nos cursos de

Engenharia da UFF, estão listadas na Tabela 5.1.1 a seguir.

Tabela 5.1.1 – Disciplinas recorrentes nas Regras de Classificação

Código e descrição da disciplina

Target

ClasseNota

( C )

ClasseTempo

( X )

GAN06118 Álgebra Linear Aplicada 9 9

GFI05100 Física Geral e Experimental XVIII 9 9

GFI05101 Física Geral e Experimental XIX 9

GFI05102 Física Geral e Experimental XX 9

GFI05103 Física Geral e Experimental XXI 9

GGM02055 Introdução à Geometria Descritiva 9

GMA04004 Cálculo Diferencial e Integral IV 9

GMA04043 Cálculo Diferencial e Integral Aplicado I 9 9

GMA06071 Equações Diferenciais Aplicadas 9

GMA06074 Cálculo Diferencial e Integral Aplicado II 9 9

TCC03060 Introdução à Informática 9

TCC03063 Programação de Computadores III 9 9

TEC03188 Metodologia Científica para Engenharia 9

Melhores medidas de

interessabilidade encontradas

Suporte

0,63 0,66

Confiança

62% 96%

Fonte: A autora

As disciplinas assinaladas formam o padrão descoberto nas regras de

classificação com o melhor resultado de suporte e confiança, na consideração da

Classe da Nota (com foco na variável “C”: reprovação por nota abaixo de 4,0) – 0,63

de suporte e 62% de confiança – e da Classe do Tempo (com foco na variável “X”:

abandonos até 5 anos) – 0,66 de suporte e 96% de confiança.

Como vimos ao longo deste capítulo, quando construímos uma regra de

classificação, além de escolhermos a variável de saída (target) também precisamos

indicar o valor do target mais interessante para a pesquisa. Nas regras focadas em

Disciplinas, variamos o target nos valores: GFI05100 (Física I), GMA04004 (Cálculo

IV), GMA04043 (Cálculo I) e recebemos de volta regras com diferentes níveis de

suporte e confiança.

Já nas regras com foco na Classe da Nota, focando no valor C (abaixo de 4,0 =

reprovados) e na Classe do Tempo, focando no valor X (abandonos no prazo de 5

anos) conseguimos êxito no retorno de regras com níveis de suporte e confiança

interessantes em relação à base de dados trabalhada. As disciplinas que apareceram

nas duas análises, nos melhores resultados em termos de interessabilidade, foram

GAN06118 (Álgebra Linear), GFI05100 (Física I), GMA04043 (Cálculo I) e GMA06074

(Cálculo IV).

Além das disciplinas citadas no parágrafo anterior, também apareceram as

disciplinas: GFI05101 (Física II), GFI05102 (Física III), GFI05103 (Física IV),

GGM02055 (Introd. à Geometria), GMA06071 (Equações Diferenciais), TCC03060

(Introd. à Informática), TCC03063 (Programação de Computadores) e TEC03188

(Metodologia Científica para Engenharia), conforme demonstramos na Tabela 5.1.1.

6 DESCOBERTA DO CONHECIMENTO

Este capítulo fala do conhecimento revelado através da mineração dos dados

contidos na base de dados exaustivamente pesquisada, ou seja, responde a pergunta:

“em que os resultados dos modelos das Regras de Associação e das análises das

Regras de Classificação, ora desenvolvidos, podem subsidiar o entendimento da

situação-problema trazida neste trabalho?”

Como foi citado na Introdução da dissertação, e também em “Massa de Dados”

(capítulo 2), não tivemos acesso aos dados pessoais dos alunos da base, nem

tampouco aos dados de ordem socioeconômica. Assim, o trabalho ficou limitado à vida

curricular do aluno.

Efetuamos a categorização dos atributos correspondentes aos códigos de

deleção (motivo/tipo de afastamento do aluno), que resultou na criação da Classe

Situação, com as variáveis A/F/C, respectivamente: Ativo/Formado/Cancelado. Dentre

as informações que se conseguiu vislumbrar na base de dados fornecida, a variável

Disciplina mostrou ser o único caminho para compreendermos o abandono dos cursos

de graduação de Engenharia da UFF. E para a visualização das disciplinas no

contexto curricular, também foram categorizados os atributos referentes:

• às notas obtidas, criando-se a Classe da Nota, com as variáveis (A/B/C/D):

Aprovado / Em verificação suplementar / Reprovado / Desistiu (sem nota);

• ao tempo de permanência do aluno no curso, criando-se a Classe do

Tempo, com as variáveis (X/Y): Até 5 anos e além de 5 anos,

respectivamente.

Através da análise consolidada dos resultados das regras construídas, uma vez

limitados a base de dados estudada, cumpre-nos deixar registrados os seguintes

pontos:

• O tipo do Curso não mostrou qualquer expressividade nas análises quanto ao

motivo do abandono, sugerindo, portanto, que o abandono na graduação de

engenharia da UFF compartilha a mesma causa, muito embora

estatisticamente os cursos apresentem diferentes percentuais de evasão.

• Configurando a “Classenota D” (inscrição na disciplina, porém sem nota

lançada no Diário, sugerindo que o aluno abandonou o curso antes de fazer a

avaliação da disciplina) encontramos 27 disciplinas. Cerca de 64,5% se

concentram nas 6 disciplinas a seguir, por ordem de grandeza: GFI05100

(Física I), GMA04043 (Cálculo I), TCC03060 (Introd. à Informática),

GGM02055 (Introd. à Geometria), GAN06118 (Álgebra Linear ) e GMA04004

(Cálculo II).

• Seguem as disciplinas que aparecem na consolidação das Regras de

Associação e de Classificação:

GAN06118 – Álgebra Linear Aplicada

GFI05100 – Física Geral e Experimental XIII

GFI05101 – Física Geral e Experimental XIX

GFI05102 – Física Geral e Experimental XX

GGM02055 – Introdução à Geometria Descritiva

GMA04004 – Cálculo Diferencial e Integral IV

GMA04043 – Cálculo Diferencial e Integral Aplicado I

GMA06071 – Equações Diferenciais Aplicadas

GMA06074 – Cálculo Diferencial e Integral Aplicado II

TCC03060 – Introdução à Informática

TCC03063 – Programação de Computadores III

Lembrando que estamos trabalhando com uma base apenas de alunos

cancelados, podemos argumentar que as disciplinas mostradas no parágrafo anterior

contribuem para o abandono dos cursos, ou seja, para a evasão na graduação de

engenharia, tema deste trabalho.

Cumpre mencionar que o caráter obrigatório de 117 disciplinas, e

principalmente o critério de pré-requisito, criam uma interdependência entre as

disciplinas que pode engessar o desenvolvimento do curso.

Em importância bem maior, está a recorrência nas reprovações nas disciplinas

explicitadas neste trabalho. Se o aluno é reprovado sucessivas vezes em uma

disciplina considerada “carro-chefe” do curso, podemos ver aí a necessidade de criar

condições para a preparação do aluno para a disciplina. Pode estar faltando o

entendimento básico sobre a natureza da disciplina, o que prejudica o seu

desenvolvimento. Sendo assim, a implementação de uma disciplina curricular, ou a

sistematização de aulas de apoio ou monitoria, pode promover o nivelamento dos

alunos e consequentemente reduzir o número de reprovações nas disciplinas mais

clássicas do curso de engenharia.

7 CONCLUSÕES

Sonhar é imaginar horizontes de possibilidade; sonhar

coletivamente é assumir a luta pela construção das condições

de possibilidade. (FREIRE, 2001).

Procuramos nesse trabalho contribuir para a criação de possibilidades de

solução para o grave problema da evasão no ensino superior no nosso país.

O trabalho se justificou, além da grandiosidade do tema Educação, devido à

implementação pelo governo federal do “Programa de Apoio a Planos de

Reestruturação e Expansão das Universidades Federais” - REUNI. Algumas questões

do programa estão de mãos dadas com a necessidade de transformação de

paradigmas relativos ao ensino nessa transição para a nova sociedade do

conhecimento. “Vivemos um daqueles momentos singulares da história em que

grandes transformações ocorrem, levando embora antigas crenças e trazendo novos

valores.” (CAVALCANTI et al., 2001). Neste novo contexto, a reflexão sobre a

educação está conciliada a novos métodos, abordagens, espaços e tempos. Nesse

sentido podemos citar: ampliação das conotações de ensino e de pesquisa, recriação

de currículos, atualização de metodologias e tecnologias de ensino-aprendizagem,

articulação da educação superior com a educação básica, profissional e tecnológica.

Focados em um banco de dados disponibilizado pela Universidade Federal

Fluminense – UFF, realizamos inicialmente um trabalho de limpeza e preparação dos

dados. Nessa primeira etapa, a massa de dados passou por redimensionamentos e

redução de variáveis até chegarmos ao universo das matrículas que:

• ocorreram no período de 1995 a 2005

• eram relativas ao ingresso por vestibular

• constavam em códigos de deleção respectivos a cancelamento

• continham inscrição em disciplinas obrigatórias

• obtiveram nas disciplinas uma nota inferior a 6,0 ou ficaram sem nota

• correspondiam às 32 disciplinas com o maior número de reprovações.

Com base nesse contexto escolar, sem dispor de dados pessoais dos alunos

nem de informações socioeconômicas, aplicamos as técnicas de mineração de dados

relativas a Regras de Associação e a Classificação do tipo “supervisionada”, uma vez

que tratamos somente uma classe específica de alunos - os que abandonaram o curso

de graduação de engenharia.

Lições aprendidas

É comum obtermos muitos mais dados sobre o que é bom, normal, ditoso e

poucos dados do que é ruim. No caso desse trabalho, optamos por registrar as

dificuldades encontradas na realização da pesquisa sob a forma de lições aprendidas,

torcendo para que contribuam para outros pesquisadores.

Algumas situações e decisões prejudicaram o andamento do trabalho, foram

causadoras de retrabalho e perda de tempo. Outras serviram apenas para constatar a

relação entre as necessidades da teoria e as dificuldades da prática. A verdade,

entretanto, é que todas elas acabaram funcionando como um desafio gerador de

grande aprendizado. Podemos citar:

• A etapa de transformação dos arquivos texto, para posterior conversão para

um banco de dados, foi muito trabalhosa e tomou mais tempo do que o

estimado. (É recomendável que o pesquisador faça uma análise prévia da

massa de dados a ser trabalhada, antes da elaboração de um cronograma ou

plano de trabalho);

• O encontro de informações sobre os atributos foi prejudicado porque algumas

tabelas originais passaram por processo de fusão ou foram reconfiguradas.

(O ideal é manter contato constante com o Administrador fornecedor dos

dados, visando conhecer eventuais modificações);

• Alguns dados aparentaram desatualizações ou apresentaram problemas de

inconsistência. (Convém que se assegure quanto ao estado de atualização

dos dados recebidos);

• A ferramenta de mineração de dados definida não dispunha de qualquer

literatura a respeito; apenas o Help foi utilizado. (A menos que se esteja em

busca de pioneirismo, o melhor é procurar ferramentas documentadas e que

já sejam de domínio de especialistas da área);

• A escolha inadequada de atributo/variável ou mesmo de linha de pensamento

ocasionaram a elaboração equivocada de visões e de novas bases de dados,

causando muito retrabalho. Esses realmente foram os piores momentos:

“quilos de análise indo pro lixo”. (Elaborar um conjunto de idéias, analisando

o desdobramento das decisões antes de se iniciar a aplicação das técnicas

de mineração de dados, sem dúvida, racionaliza o trabalho);

• As etapas da metodologia não se seguiram fielmente. O refazer de etapas e

as idas e vindas foram regulares. Podemos dizer que o trabalho se deu mais

“em rede” do que “em cadeia”. Certamente isso faz parte da dinâmica de

análise. Dá mais trabalho, entretanto, estimula a recriação, no sentido de

vencer cada novo desafio.

Descoberta do conhecimento

Dentro das 3 classes de Situação criadas: Ativos / Formados / Cancelados

(vide Tabela 2.3.1.4) trabalhamos na base final de dados apenas com a situação

Cancelados. É importante lembrar que tais matrículas canceladas correspondem à

evasão de fato, uma vez que os demais casos de cancelamentos foram expurgados

da base.

Na base final de Cancelados, composta por 970 casos (20% de um total de

4.830 matrículas), a Engenharia de Produção apresenta o menor índice de evasão:

12%, seguida pela Engenharia Civil: 18%; Telecomunicações: 20%; Elétrica: 23%,

Agrícola: 25%; Mecânica: 26% e a Engenharia Metalúrgica, que representa o maior

índice de evasão: 32%.

Na utilização das técnicas de mineração de dados, o foco das pesquisas

esteve nas disciplinas obrigatórias que continham o maior número de reprovações.

As comparações foram feitas considerando-se as variáveis referentes ao curso

de engenharia (atributo “curso”), à nota obtida nas disciplinas (atributo “classenota”) e

ao tempo de permanência do aluno até o cancelamento da matrícula (atributo

“classetempo”).

Com relação às Regras de Associação, criadas através do algoritmo “Apriori”,

os resultados retornaram semelhantes.

Com relação às análises por Classificação do tipo supervisionada, criadas

através do algoritmo “Árvore de Decisão”, conseguimos encontrar regras do tipo

acionáveis. O fato mais relevante foi a obtenção do conjunto de disciplinas recorrentes

na consolidação das regras. São elas, por ordem de representatividade com relação

ao número de reprovações:

1. GMA04043 – Cálculo Diferencial e Integral Aplicado I

2. GFI05100 – Física Geral e Experimental XIII

3. GAN06118 – Álgebra Linear Aplicada

4. GGM02055 – Introdução à Geometria Descritiva

5. TCC03060 – Introdução à Informática

6. TCC03063 – Programação de Computadores III

7. GMA06071 – Equações Diferenciais Aplicadas

8. GMA06074 – Cálculo Diferencial e Integral Aplicado II

9. GMA04004 – Cálculo Diferencial e Integral IV

10. GFI05102 – Física Geral e Experimental XX

11. GFI05101 – Física Geral e Experimental XIX

Ratificando que a base de dados final só contém matrículas canceladas,

argumentamos que as disciplinas elencadas respondem pela reprovação de 70% dos

alunos, o que pode ter direcionado os mesmos para o abandono do curso de

graduação de Engenharia.

Outras análises podem significar descoberta de conhecimento, se forem

capazes de direcionar ações corretivas ou adaptativas:

• A disciplina GMA04043 – Cálculo Diferencial e Integral Aplicado I ficou

evidenciada como a maior “vilã curricular”, seguida pela 1ª disciplina de

Física: GFI05100 – Física Geral e Experimental XIII. Como tais disciplinas

são de caráter essencial e vêm sofrendo sucessivas reprovações, cabe

considerar a possibilidade da criação de uma disciplina curricular, que sirva

de base para as disciplinas, ou da sistematização de aulas de apoio do tipo

monitoria. Tal medida pode vir a promover o nivelamento dos alunos através

do entendimento básico sobre a natureza das disciplinas, e assim, minimizar

as reprovações nas disciplinas clássicas do curso de engenharia. Além de

melhorar as estatísticas, a medida certamente contribui para a auto-estima

dos alunos e a conseqüente permanência deles no curso.

• O critério de disciplinas como pré-requisito gera um alto grau de

interdependência das disciplinas obrigatórias, conforme mostrado na Figura

2.4.3, podendo causar um afunilamento na realização dos cursos. Exemplos:

a disciplina GMA06074 é pré-requisito para outras seis disciplinas; a

disciplina GFI05103 tem quatro disciplinas como pré-requisito para ela.

• O tipo do Curso não mostrou qualquer expressividade nas análises,

significando que toda a graduação de engenharia compartilha da mesma

dificuldade curricular. A pesquisa mostrou que, apesar do índice de

cancelamento sofrer variação conforme o curso, as disciplinas que levam ao

abandono são as mesmas.

Como resposta possível à situação-problema considerada nesta pesquisa,

encontramos na reprovação recorrente nas disciplinas de base da graduação de

engenharia elementos que podem co-substanciar as decisões de abandono do curso,

conforme demonstramos ao longo do trabalho.

Cumpre mencionar que o conhecimento extraído nesse trabalho poderia ser

obtido com ferramentas de bancos de dados usuais, como consultas SQL ou OLAP.

Devido à limitação da base de dados trabalhada não se pôde atingir a profundidade

que se pretendia obter.

Entretanto, também é importante frisar que o conhecimento extraído neste

trabalho referenda a realidade do ensino público de engenharia em nosso país.

Trabalhos futuros.

Tratamos nesta pesquisa de uma base de dados puramente curricular, onde

cada matrícula representava um dado, só lembrado como aluno quando da análise

dos resultados. Porém, nossa preocupação é com o ser humano - com os alunos que

sucumbem às dificuldades e desistem do curso. Estamos falando de comportamento,

de atitudes humanas, de decisões tomadas por aspectos subjetivos. Se temos um

problema relativo à evasão, temos de pesquisar todos os elementos que podem dar

causa à essa questão. A oportunidade de refazer esse estudo, com uma base de

dados atualizada e que congregue também os dados pessoais e os dados

socioeconômicos dos alunos, trará uma grande contribuição à sociedade, ao meio

acadêmico e ao meio produtivo.

A expansão do horizonte da pesquisa também pode ser considerada através

da comparação dos contrastes e não só das semelhanças - como foi feito nesse

trabalho. Comparar o desempenho dos alunos cancelados com os formados e o

rendimento nas disciplinas obrigatórias com as não obrigatórias, serve de exemplo

para esse comentário.

Outra possibilidade encontrada é “ouvir” os alunos que abandonam, verificando

o conceito que o excluído dá a exclusão. Talvez através da implementação de um

questionário e utilizando técnicas de Text Mining.

Todo cliente deve ser retido? De acordo com o Marketing e as técnicas de

CRM, (customer relationship management) nem todos os clientes devem ser retidos. E

com relação à educação, pode se dá o mesmo enfoque? Cabe aplicar os conceitos de

marketing educacional e tratar a universidade como uma organização empresarial?

Esse também pode ser um objeto de pesquisa, principalmente em se tratando de

instituições públicas onde não há desembolso das mensalidades do curso pelo aluno.

Como descobrir os alunos que “valem” o esforço da retenção?

Essa pesquisa alcançou uma pequena parte do grande universo na qual está

inserida. Sem dúvida muitos outros trabalhos podem e devem ser feitos buscando

maior entendimento sobre o fenômeno da evasão escolar (enquanto há tempo).

Reafirmamos que os próximos trabalhos, além de uma base com menos dados

faltantes, devem contemplar dados pessoais, socioeconômicos e outros que possam

auxiliar na descoberta de aspectos subjetivos adjacentes à vida curricular.

Considerações finais.

Como o foco desse trabalho é a Educação, queremos reforçar que todo o

investimento em educação se reverte em riqueza: pessoal, social, econômica, política,

ambiental... Em 1993 Peter Drucker já declarava: “a formação de conhecimento é o

maior investimento em todos os países desenvolvidos e o retorno que um país ou uma

empresa obtém sobre o conhecimento certamente será, cada vez mais, um fator

determinante de sua competitividade”.

Acreditamos que a melhoria do cenário correspondente à evasão poderia se

iniciar com ações estruturadas para o esclarecimento sobre cursos e profissões,

focando-se nos cursos onde a evasão é maior e nas áreas onde a necessidade de

profissionais vem crescendo. Isso significa abordar duas formas de educação que se

complementariam: “orientar antes para formar depois”. O tempo mudou, as conexões

mudaram, a escola continua a mesma: o aluno permanece sozinho.

Procuramos neste trabalho contribuir para a constatação de algumas ações

que venham tornar o nosso ensino público mais eficiente. Esperamos que a paixão

que nos trouxe até aqui possa também acompanhar os trabalhos futuros inerentes ao

tema Educação.

REFERÊNCIAS

CAVALCANTI, M.; GOMES, E.; PEREIRA, A., 2001, Gestão de empresas na

sociedade do conhecimento. Rio de Janeiro, Campus.

DODGE, G.; GORMAM, T., 2000, Essencial Oracle 8i datawarehousing. New York,

John Wiley & Sons Inc.

DRUCKER, P., 1994, Sociedade pós-capitalista. São Paulo, Pioneira.

FAYYAD, U.M; PIATETSKY-SAHAPIRO, G.; SMYTH, G., 1996, From Data Mining to

knowledge discovey: an overview. In: Advances in Knowledge Discovery & Data

Mining, USA, AAAI Press.

FREIRE, P., 2001, Pedagogia dos sonhos possíveis. São Paulo, Unesp.

HAN, J., KAMBER, M., 2001, Data Mining concepts and techniques. San Diego,

Morgan Kaufmann.

HARRISON, T., 1998, Intranet Data Warehouse. São Paulo, Berkeley.

INMON, W., 2002, Building the Data Warehouse. 4 ed. New York, John Wiley &

Sons.

LIU, B. ET AL., 2000, Analysing the Subjective Interestingness of Association Rules,

IEEE Inteligent Systems, pp. 47-55.

RALPH, K; REEVES, L.; ROSS M.; THORNTHWAITE, W., 2002, The Data

Warehouse toolkit, Rio de Janeiro, Campus.

REZENDE, S., 2003, Sistemas inteligentes: fundamentos e aplicações. São Paulo,

Manole.

TEIXEIRA, J., 2000, Gerenciando o conhecimento. Rio de Janeiro, SENAC.

TAKAHASHI, F., 2007, Cai o número de formados na Universidade pública. In: Folha

de São Paulo, São Paulo, n. 3421, 30 dez. 2007.

UNIVERSIDADE FEDERAL FLUMINENSE, 2008, Niterói, www.uff.br.

ANEXO A - Esquema acadêmico do curso Graduação de Engenharia da UFF – Chaves das Tabelas

Tabela acompanhamento

Nome da chave tipo colunas tabela referenciada colunas referenciadas

PK_ACOMPANHAMENTO Primary

CODGRAU, ORDEMMAT, CODCURSO,

ANOMAT, CODINGRESSO,

ANOSEMESTRE

FK_ACOMPANHAMENTO Foreign

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT

MATRICULAALUNO

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT

Tabela

acompanhamentodesdobramento

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_ACOMPDESDOBRAMENTO Primary

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT,

ANOSEMESTRE, CODDESDCURSO

FK_ACOMPDESDOBRAMENTO Foreign

CODGRAU, ORDEMMAT, CODCURSO,

ANOMAT, CODINGRESSO,

ANOSEMESTRE

ACOMPANHAMENTO

CODGRAU, ORDEMMAT, CODCURSO,

ANOMAT, CODINGRESSO,

ANOSEMESTRE

Tabela bolsa

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_BOLSA Primary CODBOLSA

FK_BOLSA Foreign CODENTIDADE ENTIDADES CODENTIDADE

Tabela cidades

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_CIDADE Primary CODESTADO, CODCIDADE

Tabela cor

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_COR Primary CODCORALUNO

Tabela corequisitos

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_COREQUISITOS Primary

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO,

CODDISCIPLINA, CODDISCIPLINACO

FK_COREQUISITOS Foreign

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

CURRICULOPLENO

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

Tabela curriculominimo

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_CURRICULOMINIMO Primary

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQMINIMO

Tabela curriculopleno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_CURRICULOPLENO Primary

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

Tabela curso

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_CURSO Primary

CODGRAU, CODCURSO,

CODDESDCURSO,

DATAVIGENCIACURSO

Tabela cursohistorico

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_CURSOHISTORICO Primary

CODGRAU, CODCURSO,

CODDESDCURSO, DATAALTERACAO

Tabela dadosaluno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_DADOSALUNO Primary CODINTERNO

Tabela dataconclusao

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_DATACONCLUSAO Primary

ANOCONCLUSAO, SEMCONCLUSAO,

CURSOCENTRO, DESDCONCLUSAO,

MESCONCLUSAO

Tabela decretos

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_DECRETOS Primary

CODGRAU, CODCURSO,

CODDESDCURSO, ANOSEMESTRE,

DATAVIGENCIADECRETO

Tabela delecaoaluno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_DELECAOALUNO Primary CODGRAU, CODDELECAO

Tabela delecaomotivo

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_DELECAOMOTIVO Primary

CODGRAU, CODTIPODELECAO,

CODMOTIVO

FK_DELECAOMOTIVO Foreign CODGRAU, CODTIPODELECAO TIPODELECAO CODGRAU, CODTIPODELECAO

Tabela desdobramentoaluno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_DESDALUNO Primary

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT,

CODDESDCURSO, CODSEQPLENO

FK_DESDALUNO Foreign

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT

MATRICULAALUNO

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT

Tabela diario

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_DIARIO Primary

CODGRAU, CODLOCALIDADE,

ANOSEMESTRE, ANOMES,

CODDISCIPLINA, CODTURMA,

CODCURSO, ANOMAT, CODINGRESSO,

ORDEMMAT

FK_DIARIO Foreign CODGRAU, CODSITDISCIPLINA SITUACAODISCIPLINA CODGRAU, CODSITDISCIPLINA

Tabela diassemana

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_DIASSEMANA Primary CODDIASEMANA

Tabela disciplina

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_DISCIPLINA Primary

CODGRAU, CODDISCIPLINA,

ANOSEMVIGDISC

Tabela ementadisciplina

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_EMENTADISCIPLINA Primary CODGRAU, CODDISCIPLINA

Tabela entidades

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_ENTIDADES Primary CODENTIDADE

Tabela equivalencias

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_EQUIVALENCIAS Primary

CODGRAU, CODEQUIVALENCIA,

CODCURSO, CODDESDCURSO,

CODSEQPLENO, CODDISCIPLINA,

CODDISCIPLINAEQUI

FK_EQUIVALENCIAS Foreign

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

CURRICULOPLENO

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

Tabela equivalenciasvinc

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_EQUIVINC Primary

CODEQUIVALENCIA, CODDISCIPLINA,

CODDISCIPLINAVINC

Tabela estadocivil

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_ESTADOCIVIL Primary CODESTCIVILALUNO

Tabela estados

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_ESTADOS Primary CODESTADO, SIGLAESTADO

Tabela formaingaluno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_FORMAINGALUNO Primary CODGRAU, CODFORMAING

FK_FORMAINGALUNO Foreign CODGRAU GRAU CODGRAU

Tabela grau

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_GRAU Primary CODGRAU

Tabela historico

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_HISTORICO Primary

CODGRAU, CODLOCALIDADE,

CODCURSO, ANOMAT, CODINGRESSO,

ORDEMMAT, ANOSEMESTRE,

CODIDENTIFICADOR

Tabela horario

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_HORARIO Primary CODHORARIO

Tabela indiceturno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

Não tem chaves

Tabela ingformaingresso

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_INGFORMAING Primary

CODGRAU, CODINGRESSO,

CODFORMAING

Tabela ingresso

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_INGRESSO Primary CODGRAU, CODINGRESSO

PF_INGRESSO Foreign CODGRAU GRAU CODGRAU

Tabela localidade

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_LOCALIDADE Primary CODGRAU, CODLOCALIDADE

PF_LOCALIDADE Foreign CODGRAU GRAU CODGRAU

Tabela localidadecurso

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_LOCALIDADECURSO Primary

CODGRAU, CODLOCALIDADE,

CODCURSO, CODDESDCURSO

Tabela materias

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_MATERIAS Primary CODGRAU, CODMATERIA

UK_MATERIAS Unique DESCMATERIA

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_MATERIASMINIMO Primary

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQMINIMO,

CODMATERIA

FK_MATERIASMINIMO Foreign CODGRAU, CODMATERIA MATERIAS CODGRAU, CODMATERIA

FK_MATERIASMINIMO2 Foreign

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQMINIMO

CURRICULOMINIMO

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQMINIMO

Tabela matriculaaluno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_MATRICULAALUNO Primary

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT

FK_MATRICULAALUNO Foreign CODINTERNO DADOSALUNO CODINTERNO

Tabela motivocurso

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_MOTIVOCURSO Primary CODGRAU, CODMOTIVOCURSO

Tabela motivodesat

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_MOTIVODESAT Primary CODGRAU, CODMOTIVODESAT

FK_MOTIVODESAT Foreign CODGRAU GRAU CODGRAU

Tabela notasvestibular

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_NOTASVESTIBULAR Primary

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT, NUMSEQ

FK_NOTASVESTIBULAR Foreign

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT

MATRICULAALUNO

CODGRAU, CODCURSO, ANOMAT,

CODINGRESSO, ORDEMMAT

Tabela pais

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_PAIS Primary CODPAISALUNO

Tabela periodizacao

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_PERIODIZACAO Primary

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO,

CODDISCIPLINA

FK_PERIODIZACAO1 Foreign

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

CURRICULOPLENO

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

FK_PERIODIZACAO2 Foreign CODGRAU, CODTIPODISCIPLINA TIPODISCIPLINA CODGRAU, CODTIPODISCIPLINA

Tabela prerequisitos

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_PREREQUISITOS Primary

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO,

CODDISCIPLINA, CODDISCIPLINAPRE

FK_PREREQUISITOS Foreign

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

CURRICULOPLENO

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

Tabela quadrodedocentes

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_QUADRODEDOCENTES Primary

CODGRAU, CODLOCALIDADE,

ANOSEMESTRE, CODDISCIPLINA,

CODTURMA, MATSIAPEQDOCENTE

Tabela quadrodehorarios

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_QUADRODEHORARIOS Primary

CODGRAU, TIPOHORARIO,

CODLOCALIDADE, SEQDIA,

ANOSEMESTRE, CODDISCIPLINA,

CODTURMA

100

FK_QUADRODEHORARIOS Foreign

CODGRAU, CODLOCALIDADE,

ANOSEMESTRE, CODDISCIPLINA,

CODTURMA

QUADRODISCIPLINAS

CODGRAU, CODLOCALIDADE,

ANOSEMESTRE, CODDISCIPLINA,

CODTURMA

Tabela quadrodevagas

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_QUADRODEVAGAS Primary

CODGRAU, CODLOCALIDADE,

ANOSEMESTRE, CODDISCIPLINA,

CODTURMA, CODCURSO

FK_QUADRODEVAGAS Foreign

CODGRAU, CODLOCALIDADE,

ANOSEMESTRE, CODDISCIPLINA,

CODTURMA

QUADRODISCIPLINAS

CODGRAU, CODLOCALIDADE,

ANOSEMESTRE, CODDISCIPLINA,

CODTURMA

Tabela quadrodisciplinas

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_QUADRODISCIPLINAS Primary

CODGRAU, CODLOCALIDADE,

ANOSEMESTRE, CODDISCIPLINA,

CODTURMA

Tabela resumocurrpleno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_RESUMO Primary

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO,

CODTIPODISCIPLINA, CODCICLO

FK_RESUMO Foreign

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

CURRICULOPLENO

CODGRAU, CODCURSO,

CODDESDCURSO, CODSEQPLENO

FK_RESUMO2 Foreign CODGRAU, CODTIPODISCIPLINA TIPODISCIPLINA CODGRAU, CODTIPODISCIPLINA

Tabela situacaoaluno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_SITUACAOALUNO Primary CODGRAU, CODSITUACAO

FK_SITUACAOALUNO Foreign CODGRAU GRAU CODGRAU

Tabela situacaodisciplina

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_SITUACAODISCIPLINA Primary CODGRAU, CODSITDISCIPLINA

101

FK_SITUACAODISCIPLINA Foreign CODGRAU GRAU CODGRAU

Tabela tipodelecao

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_TIPODELECAO Primary CODGRAU, CODTIPODELECAO

Tabela tipodisciplina

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_TIPODISCIPLINA Primary CODGRAU, CODTIPODISCIPLINA

Tabela titulacao

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_TITULACAO Primary

CODGRAU, CODDESDCURSO,

CODCURSO, CODTITULACAO

Tabela turno

Nome da chave tipo Colunas tabela referenciada colunas referenciadas

PK_TURNO Primary CODGRAU, INDTURNO, CODTURNO

FK_TURNO Foreign CODGRAU GRAU CODGRAU

Fonte: UFF

102

ANEXO B - Construção do Banco de Dados em Oracle

Ligado a: Oracle Database 10g Enterprise Edition Release 10.2.0.1.0 - Production

With the Partitioning, OLAP and Data Mining options

Exportação efectuada no conjunto de caracteres WE8MSWIN1252 e conjunto de

caracteres NCHAR AL16UTF16

Prestes a exportar utilizadores especificados

. a exportar acções e objectos de procedimentos pré-schema

. a exportar nomes de bibliotecas de funções externas para utilizador TESE

. a exportar sinónimos do tipo PUBLIC

. a exportar sinónimos do tipo PRIVATE

. a exportar definições de tipos de objecto para utilizador TESE

Prestes a exportar objectos do utilizador TESE ...

. a exportar referências de base de dados

. a exportar números sequenciais

. a exportar definições de cluster

. prestes a exportar tabelas do TESE ... via Percurso Convencional ...

. . a exportar tabela ACOMPACOMPDESDOB 6558 linhas exportadas

. . a exportar tabela ACOMPANHAMENTO 47786 linhas exportadas

. . a exportar tabela ACOMPANHAMENTODESDOBRAMENTO 45536 linhas

exportadas

. . a exportar tabela ACOMP_DEL_MAIOR_0 3741 linhas exportadas

. . a exportar tabela ACOMPDESDOB 45536 linhas exportadas

. . a exportar tabela ACOMPMATPERF 47786 linhas exportadas

. . a exportar tabela BOLSA 9 linhas exportadas

. . a exportar tabela CIDADES 1665 linhas exportadas

. . a exportar tabela COD0_2961 2961 linhas exportadas

. . a exportar tabela COD0_3040 3040 linhas exportadas

. . a exportar tabela COR 6 linhas exportadas

. . a exportar tabela COREQUISITOS 109 linhas exportadas

. . a exportar tabela CURRICULOMINIMO 15 linhas exportadas

. . a exportar tabela CURRICULOPLENO 21 linhas exportadas

. . a exportar tabela CURSO 200 linhas exportadas

. . a exportar tabela CURSOHISTORICO 204 linhas exportadas

. . a exportar tabela DADOSALUNO 21315 linhas exportadas

. . a exportar tabela DATACONCLUSAO 439 linhas exportadas

. . a exportar tabela DECRETOS 86 linhas exportadas

. . a exportar tabela DELECAOALUNO 25 linhas exportadas

. . a exportar tabela DELECAOMOTIVO 27 linhas exportadas

. . a exportar tabela DESDOBRAMENTOALUNO 6723 linhas exportadas

. . a exportar tabela DIARIO 127219 linhas exportadas

. . a exportar tabela DIARIOMAT 110522 linhas exportadas

. . a exportar tabela DIASSEMANA 6 linhas exportadas

. . a exportar tabela DISCIPLINA 10657 linhas exportadas

. . a exportar tabela EMENTADISCIPLINA 4433 linhas exportadas

. . a exportar tabela ENTIDADES 7 linhas exportadas

. . a exportar tabela EQUIVALENCIAS 327 linhas exportadas

. . a exportar tabela EQUIVALENCIASVINC 12 linhas exportadas

. . a exportar tabela ESTADOCIVIL 7 linhas exportadas

. . a exportar tabela ESTADOS 27 linhas exportadas

. . a exportar tabela FORMAINGALUNO 14 linhas exportadas

. . a exportar tabela GRAU 12 linhas exportadas

103

. . a exportar tabela HISTORICO 236671 linhas exportadas

. . a exportar tabela HISTORICOMAT 236671 linhas exportadas

. . a exportar tabela HORARIO 22 linhas exportadas

. . a exportar tabela INDICETURNO 3 linhas exportadas

. . a exportar tabela INGFORMAINGRESSO 14 linhas exportadas

. . a exportar tabela INGRESSO 9 linhas exportadas

. . a exportar tabela LOCALIDADE 17 linhas exportadas

. . a exportar tabela LOCALIDADECURSO 117 linhas exportadas

. . a exportar tabela MATERIAS 937 linhas exportadas

. . a exportar tabela MATERIASMINIMO 343 linhas exportadas

. . a exportar tabela MAT_REPETEM_DEL 107 linhas exportadas

. . a exportar tabela MATRICULAALUNO 21316 linhas exportadas

. . a exportar tabela MOTIVOCURSO 7 linhas exportadas

. . a exportar tabela MOTIVODESAT 12 linhas exportadas

. . a exportar tabela NOTASVESTIBULAR 100415 linhas exportadas

. . a exportar tabela PAIS 323 linhas exportadas

. . a exportar tabela PERIODIZACAO 1333 linhas exportadas

. . a exportar tabela PREREQUISITOS 1438 linhas exportadas

. . a exportar tabela QUADRODEDOCENTES 37328 linhas exportadas

. . a exportar tabela QUADRODEHORARIOS 19322 linhas exportadas

. . a exportar tabela QUADRODEVAGAS 18488 linhas exportadas

. . a exportar tabela QUADRODISCIPLINAS 12248 linhas exportadas

. . a exportar tabela RESUMOCURRPLENO 65 linhas exportadas

. . a exportar tabela SITUACAOALUNO 11 linhas exportadas

. . a exportar tabela SITUACAODISCIPLINA 6 linhas exportadas

. . a exportar tabela TIPODELECAO 4 linhas exportadas

. . a exportar tabela TIPODISCIPLINA 9 linhas exportadas

. . a exportar tabela TITULACAO 532 linhas exportadas

. . a exportar tabela TURNO 23 linhas exportadas

. a exportar sinónimos

. a exportar vistas

. a exportar procedimentos armazenados

. a exportar operadores

. a exportar restrições de integridade referencial

. a exportar triggers

. a exportar tipos de índice

. a exportar bitmap, índices funcionais e extensíveis

. a exportar acções lançáveis

. a exportar vistas materializadas

. a exportar diários de instantâneos

. a exportar filas de espera de tarefas

. a exportar grupos de renovação e filhos

. a exportar dimensões

. a exportar acções e objectos de procedimentos pós-schema

. a exportar estatísticas

Exportação terminada com êxito, sem avisos.

104

ANEXO C - Evolução das bases de dados

SQL> CREATE TABLE TBASENOVA6 AS SELECT * FROM TBASENOVA3;

Tabela criada.

SQL>

SQL> CREATE INDEX TBASENOVA6_IDX1 ON TBASENOVA6 (MATRICULA,

CODDISCIPLINA, ANOSEMDIARIO);

Índice criado.

SQL> UPDATE TBASENOVA6 SET CODDISCIPLINA = 'GMA04043' WHERE

CODDISCIPLINA ='TMI04069';

1228 linhas actualizadas.

UPDATE TBASENOVA6 SET CODDISCIPLINA = 'GMA06074' WHERE

CODDISCIPLINA ='TMI06070';

824 linhas actualizadas.

UPDATE TBASENOVA6 SET CODDISCIPLINA = 'GMA06071' WHERE

CODDISCIPLINA ='TMI06072';

567 linhas actualizadas.

UPDATE TBASENOVA6 SET CODDISCIPLINA = 'TCC03063' WHERE

CODDISCIPLINA ='TMI03067';

1038 linhas actualizadas.

UPDATE TBASENOVA6 SET CODDISCIPLINA = 'TCC03059' WHERE

CODDISCIPLINA ='TMI03074';

469 linhas actualizadas.

SQL> UPDATE TBASENOVA6 SET CLASSENOTA='D' WHERE CLASSENOTA IS

NULL;

11886 linhas actualizadas.

SQL> SELECT COUNT(*) FROM TBASENOVA6 WHERE CLASSENOTA != 'A' AND

"SITUAÇÃO" ='C';

COUNT(*)

----------

7357

SQL> SELECT COUNT(*) FROM TBASENOVA6 WHERE CLASSENOTA != 'A' AND

"SITUAÇÃO" ='C'

2 AND CODDISCIPLINA IN

3 (SELECT CODDISCIPLINA FROM TESE.PERIODIZACAO

105

4 WHERE CODTIPODISCIPLINA='O');

COUNT(*)

----------

5403

SELECT COUNT(*), CODDISCIPLINA FROM TBASENOVA6 WHERE CLASSENOTA

!= 'A' AND "SITUAÇÃO" ='C'

AND CODDISCIPLINA IN

(SELECT CODDISCIPLINA FROM TESE.PERIODIZACAO

WHERE CODTIPODISCIPLINA='O')

GROUP BY CODDISCIPLINA

having count(*) > 20

ORDER BY COUNT(*) desc

COUNT(*) CODDISCIPLINA

---------- ---------------

761 GMA04043

674 GFI05100

515 GAN06118

418 GGM02055

350 TCC03060

234 TCC03063

206 GMA06074

171 GMA04004

156 GMA06071

155 GFI05102

151 GFI05101

130 GGM03077

126 GET04021

106 TEP03041

62 GFI04104

61 TEC03188

61 TCC03059

58 GQI04019

55 GFI05103

54 GGE04057

46 TDT03015

41 SDB03073

38 TEP04014

35 TEP03042

32 TEE04094

30 TET05100

29 TEP04040

24 TEC05124

22 TEC04080

22 GMA04058

21 TEM04125

21 TET05114

32 linhas seleccionadas.

SQL> create table tbasenova7 as select * FROM TBASENOVA6 WHERE

CLASSENOTA != 'A' AND "SITUAÇÃO" ='C'

2 AND CODDISCIPLINA IN

106

3 (SELECT CODDISCIPLINA FROM TESE.PERIODIZACAO

4 WHERE CODTIPODISCIPLINA='O')

5 /

Tabela criada.

SQL> select count(*) from tbasenova7;

COUNT(*)

----------

5403

create table tbasenova8 as select * from tbasenova7

where coddisciplina in (

'GMA04043',

'GFI05100',

'GAN06118',

'GGM02055',

'TCC03060',

'TCC03063',

'GMA06074',

'GMA04004',

'GMA06071',

'GFI05102',

'GFI05101',

'GGM03077',

'GET04021',

'TEP03041',

'GFI04104',

'TEC03188',

'TCC03059',

'GQI04019',

'GFI05103',

'GGE04057',

'TDT03015',

'SDB03073',

'TEP04014',

'TEP03042',

'TEE04094',

'TET05100',

'TEP04040',

'TEC05124',

'TEC04080',

'GMA04058',

'TEM04125',

'TET05114')

SQL> select count(*) from tbasenova8;

COUNT(*)

----------

4865

107

ANEXO D – Relação das disciplinas da base de dados final

Disciplinas Reprovações

1 GMA04043 Cálculo Diferencial e Integral Aplicado I 761

15,6%

2 GFI05100 Física Geral e Experimental XVIII 674

13,9%

3 GAN06118 Álgebra Linear Aplicada 515

10,6%

4 GGM02055 Introdução à Geometria Descritiva 418

8,6%

5 TCC03060 Introdução à Informática 350

7,2%

6 TCC03063 Programação de Computadores III 234

4,8%

7 GMA06074 Cálculo Diferencial e Integral Aplicado II 206

4,2%

8 GMA04004 Cálculo Diferencial e Integral IV 171

3,5%

9 GMA06071 Equações Diferenciais Aplicadas 156

3,2%

10 GFI05102 Física Geral e Experimental XX 155

3,2%

11 GFI05101 Física Geral e Experimental XIX 151

3,1%

12 GGM03077 Geometria Descritiva VI 130

2,7%

13 GET04021 Estatística XI 126

2,6%

14 TEP03041 Fundamentos de Economia 106

2,2%

15 GFI04104

Mecânica Geral V

62 1,3%

16 TEC03188

Metodologia Científica para Engenharia

61 1,3%

17 TCC03059

Introdução aos Métodos Numéricos

61 1,3%

18 GQI04019

Química Geral Inorgânica Experimental II

58 1,2%

19 GFI05103

Física Geral e Experimental XXI

55 1,1%

20 GGE04057

Ecologia Geral

54 1,1%

21 TDT03015

Desenho Básico

46 0,9%

22 SDB03073

Introdução ao Direito II

41 0,8%

23 TEP04014

Administração e Organização I

38 0,8%

24 TEP03042

Fundamentos da Engenharia Econômica

35 0,7%

25 TEE04094

Circuitos Elétricos IV

32 0,7%

26 TET05100

Eletromagnetismo I

30 0,6%

27 TEP04040

Pesquisa Operacional - Mod. Determinísticos

29 0,6%

28 TEC05124

Resistência dos Materiais IX

24 0,5%

29 TEC04080

Fenômenos de Transporte V

22 0,5%

30 GMA04058

Cálculo Diferencial e Integral VIII

22 0,5%

31 TEM04125

Fenômenos de Transporte

21 0,4%

32 TET05114

Eletromagnetismo III

21 0,4%

As 32 disciplinas que mais reprovam

4.865 91,0%

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo