A sociedade produz e tem acesso a imensa quantidade de dados, em formatos variados, com grande velocidade, em grandes volumes, hoje temos aproximadamente 45 bilhões de páginas indexadas pelo buscador Google, segundo site www.worldwidewebsize.com, variedade, velocidade e volume são características elementares do cenário atual, conhecido como fenômeno Big Data. Neste cenário os dados abertos tem um papel relevante no acompanhamento da aplicação de programas públicos. O portal de dados abertos do Ministério da Educação (MEC), disponibiliza informações do ProUni, foco deste estudo, e de outros programas com acesso livre para acompanhamento pela população. Mas, como pode ser feito acompanhamento de programas de governo com dados tão numerosos? As técnicas de análise de dados de Big Data auxiliam a encontrar respostas, melhor esclarecimento, entendimento e visualização das análises de dados abertos do MEC. Big Data está relacionado à pesquisa, agregar e relacionar grandes conjuntos de dados, para identificar padrões que possibilitarão melhor interpretação, objetividade e precisão nos resultados.
O Exame Nacional do Ensino Médio (ENEM) avalia o aluno para que se tenha acesso a cursos universitários, técnicos, por meio dos programas adotados pelo MEC. O Sistema de Seleção Unificada (Sisu), adotado pelas instituições públicas de ensino superior, usa a nota do ENEM para classificação no número de vagas ofertadas por curso. O Programa Universidade para Todos (ProUni), objeto de estudo deste trabalho, oferta bolsas integrais ou parciais em instituições privadas, a estudantes sem diploma de curso superior e professores de educação básica da rede pública de ensino.
Este trabalho visa analisar, por meio de técnicas usadas em Big Data, como exemplo da aplicação das técnicas de Big Data, o atendimento da oferta de bolsas de estudo integrais e parciais em instituições privadas de ensino superior para estudantes brasileiros sem diploma de curso superior ou professores de educação básica da rede pública de ensino. Para fundamentar a análise foram utilizados dados abertos disponibilizados no portal de dados abertos do MEC do PROUNI do período de 2005 a 2016. Foram considerados para a análise o quantitativo de bolsas integrais e parciais, idades mínima, máxima e média por ano avaliado.
Kindle Unlimited – Livros ilimitados em um só lugar
Analisar os participantes do ProUni pelo tipo de bolsa e idade e o perfil do participante do ProUni.
2.1 Objetivos específicos
-
Descrever os dados quantitativos do tipo de bolsa e idade;
-
Estabelecer o relacionamento entre o tipo de bolsa e a idade;
-
Identificar o perfil do participante do ProUni.
A ciência da informação, arcabouço da produção, coleta, organização, armazenamento, recuperação, interpretação, transmissão, transformação e utilização da informação investiga seu objeto de estudo, a informação, e viabiliza a criação de produtos e serviços, conforme Borko (1968). A análise resultante, a ubiquidade da informação, suas propriedades e comportamento, no processo de pesquisa responde ao questionamento da busca pelo perfil do participante do ProUni pelos dados disponibilizados abertamente no portal de dados abertos do MEC.
Historicamente, o progresso tecnológico multiplicou a informação, essencialmente nos processos de produção, armazenamento, e comunicação, e de acordo com Le Coadic(1996) este avanço quantitativo e sem fronteiras, favorecido pela Internet, reduziu o tempo para se extrair informações e gerar conhecimento a partir da grande quantidade de dados em diversos formatos que é disponibilizada atualmente.
Informação, conhecimento comunicado e insumo para o conhecimento, fundamenta a formação de sentido adequado ao contexto, por meio da interpretação individual. A soma das experiências particulares com as informações, formam novos conhecimentos. Assim, novas interpretações, segundo BUCKLAND(1991) e Le Coadic (1996), sustentam o fluxo do ciclo: dado, informação e conhecimento.
Dados podem ser estruturados, obtidos por máquinas, quantificados e transferíveis, informação responde a um propósito, tem sentido, está presente em um determinado contexto, é relevante, necessita de análise, apresenta significado e necessita de mediação humana, conforme Davenport (2000), ou seja, a informação é constituída de dados e significados, formados a partir das análises realizadas em estudo de busca por respostas aos questionamentos elaborados.
A massa de dados, produzida e consumida atualmente, representa diversos aspectos das nossas vidas como partes formadoras de informações, ou produtos de informação e o cientista de dados é o papel que surge para extrair informações a partir dos dados. O cientista de dados se interessa pela solução de problemas relevantes para a sociedade usando dados. Ele extrai significado e interpreta dados por meio de técnicas, ferramentas e métodos como estatística e aprendizagem de máquina, planejam constantemente tarefas para coleta, limpeza, formatação e conversão de dados pois estes nunca estão limpos e a cada questionamento ou pesquisa por padrões uma nova abordagem precisa ser feita. Esta análise exploratória dos dados, visa desenvolver visualização que proporciona sentido aos dados apresentada por Schutt e O’Neil (2014)
O fenômeno Big Data, caracterizado pelo volume, velocidade, variedade e veracidade dos dados que são disponibilizados. O avanço tecnológico proporcionou à velocidade e variedade com que os dados são produzidos, volumes cada vez maiores, em diversos formatos, por dispositivos e fontes diversas, assim, quantitativamente, Big Data gera mais dados do que podemos assimilar atualmente. Para melhor qualificar os dados a veracidade destaca a necessidade da adequada identificação da fonte dos dados. Big data é, essencialmente, caracterizado pelos 4 Vs – Velocidade, Variedade, Veracidade e Volume.
McAfee e Brynjolfsson (2012), consideram Big Data um avanço de técnicas de análise de dados anteriores, de acordo com a capacidade dos novos recursos tecnológicos, que nos ajudará a obter respostas a questões como o que estes dados querem dizer? ou que tipo de análise pode ser apresentada?. Questões que, ao serem definidas previamente, orientam a definição de estratégias de formulação de soluções e respostas adequadas, cada vez mais assertivas com o uso de novos recursos tecnológicos.
A identificação de padrões, a partir dos dados, suas interpretações e significados adequados ao contexto como resposta à necessidade de informação no contexto do questionamento é destacada por Davenport (2014). É a partir do questionamento que se define a estratégia adequada para orientar a coleta, processamento e apresentação dos dados para tomada de decisão. A estratégia a ser definida corresponde aos estágios de formulação do problema, reconhecimento e revisão de descobertas anteriores, solução do problema pela coleta, modelagem e análise dos dados, por fim a comunicação adequada dos resultados para que sejam tomadas as providências adequadas.
Para que sejam tomadas decisões adequadas e possa ser obtido o valor esperado com os dados é fundamental que seja elaborado um plano de ação, baseado em um problema ou questionamento, para melhor utilização dos dados de maneira que não se tornem caros ou inúteis. conforme MARR(2017).
Big Data e a ciência da informação são considerados por SOUZA et al.(2013) causadores de impactos e mudanças paradigmáticas embora considere a explosão informacional o seu maior motivador para a nomenclatura, no entanto considera banalizado o uso do termo Big Data no que se refere a qualquer grande volume de dados sem processamento por estruturas específicas. A transformação evolutiva proporcionada pelos recursos computacionais alcançou áreas como linguística computacional, ontologia, visualização de informações e que buscam extrair mais sentido dos dados que estão sendo investigados. Técnicas de análise de documentos oriundas da ciência da informação como a manipulação de informação desestruturada adequaram-se ao fenômeno Big Data. Por outro lado é difícil avaliar, no cenário de Big Data, a qualidade da informação que ficou cada vez mais complexo para se estabelecer parâmetros, a quantidade de fontes de informações se tornou intratável pelo ser humano, a rápida obsolescência e as pesquisas científicas passaram a ser orientadas a dados com o auxílio de computadores para a descoberta de padrões, é um cenário de transformação para a ciência da informação que por ser multidisciplinar molda suas técnicas para o novo contexto dos 4 Vs do Big Data.
O Programa Universidade para Todos (ProUni), programa do Ministério da Educação, criado em 2004 pelo Governo Federal oferta bolsas de estudo integrais e parciais (50%), em instituições privadas de educação superior e sequenciais de formação específica, a estudantes brasileiros sem diploma de nível superior. O ProUni visa atender egressos do ensino médio da rede pública ou particular na condição de bolsistas integrais e deficientes. Os egressos que concorrem a bolsa integral devem comprovar renda familiar bruta mensal de até um salário mínimo e meio, para a bolsa parcial a renda familiar bruta mensal de até três salários mínimos por pessoa. Além do critério econômico é necessário que o estudante tenha participado do Enem do ano anterior com pontuação média mínima de 450 pontos e não ter zerado a redação. O programa se estende a professores da rede pública de ensino, no exercício do magistério da educação básica, integrantes do quadro de instituição pública que não precisam comprovar renda. Assim, o ProUni apresenta um cenário onde os dados de participação são disponibilizados para livre acesso e possíveis contribuições da população para sua melhoria.
Para se identificar o perfil do participante do ProUni no período de 2005 a 2016 a partir da análise dos dados abertos disponibilizados pelo MEC foi utilizada metodologia adaptada de Davenport (2014), constituída por fases e etapas conforme apresentado no quadro 1.
Fases |
Etapas |
Preparação |
Reconhecimento do problema |
Imersão |
Modelagem |
Incubação |
Modelagem, coleta e análise de dados |
Insight |
Análise e comunicação dos resultados |
Quadro 1 – Fases e etapas da metodologia aplicada na pesquisa
A preparação consiste no reconhecimento do problema que é a identificação do perfil do participante do ProUni pelo tipo de bolsa e idade no período de 2005 a 2016. Para iniciar esta fase foram coletados os dados disponibilizados no portal de dados abertos do MEC em formato CSV e carregados no RStudio. As bases de cada ano apresentaram os seguintes quantitativos de participantes.
Quadro 2 – Ano e quantitativo de participantes no ProUni
Ano |
Quantitativo |
2005 |
161.139 |
2006 |
161.139 |
2007 |
161.139 |
2008 |
161.139 |
2009 |
161.139 |
2010 |
152.733 |
2011 |
170.766 |
2012 |
176.764 |
2013 |
177.326 |
2014 |
223.598 |
2015 |
252.650 |
2016 |
239.262 |
Observa-se uma constante no período de 2005 a 2009 porém não foi investigada a sua razão, esta é uma pergunta que surge na primeira análise e que poderá servir de insumo para um estudo posterior e mais detalhado. A partir de 2010 uma queda seguida por recuperação nos anos seguintes até 2015 que voltou a cair em 2016. Dentre as razões a serem investigadas pode-se buscar identificar o orçamento destinado ao programa nestes anos e também a demanda a ser atendida a cada ano.
A imersão no problema leva ao início da modelagem do problema com o gráfico a seguir que apresenta o quantitativo de bolsa integral e parcial no período de 2005 a 2016. A partir deste gráfico é possível identificar que o período de 2005 a 2009 se manteve constante, porém a movimentação da linha da bolsa integral apresenta movimentos mais expressivos do que a bolsa parcial o que leva a uma primeira análise de que há uma maior demanda atendida por bolsa integral, o que, pelos critérios de participação do ProUni, induz a uma participação maior de jovens e uma discreta participação de professores de educação básica com bolsa parcial.
Modelar, continuar a coleta e análise de dados leva a incubação do perfil procurado do participante do ProUni com a análise das idades mínima, média e máxima dos participantes do programa como demonstrada no gráfico da figura a seguir.
A Figura 2 trouxe mais questionamentos que foram encontrados ao se traçar as idades mínima e máxima de 2005 a 2014. E, somente no ano de 2016 a idade mínima dos participantes foi 16 anos e a máxima, 78. Para os demais anos, a exemplo de 2013, a máxima chegou a 146 anos, a mínima a 3 anos. Surge então questionamento quanto à veracidade dos dados que foram disponibilizados, um das características do Big Data que resulta em uma análise que pode ser invalidada com estes resultados ou que sejam tomadas ações corretivas para os dados apresentados no portal do MEC.
5. Considerações finais
A análise e comunicação dos resultados do perfil do participante do ProUni com base nos dados abertos do MEC pelas variáveis idade e tipo de bolsa permite considerar que é necessário avaliar mais detalhadamente outras variáveis como tipo de curso frequentado e segmentar melhor as informações apresentadas em outros gráficos com outros formatos. Este detalhamento mais apurado poderá ser feito ainda pelas mesmas ferramentas e técnicas adotadas neste estudo.
O MEC informa no seu portal que o ProUni atendeu, de 2004 a 2016, mais de 1,9 milhão de estudantes, em 2016 as matrículas no ensino médio chegou a 8,1 milhões, segundo o portal do programa no site do MEC. Para melhor fundamentar estes números pode ser avaliado o atendimento efetivo pela identificação de participantes distintos ao longo dos anos nos cursos e pelos mesmos participantes em cursos diversos ao longo do tempo de participação no programa
Por fim, a Figura 3 apresenta a evolução do programa quanto à participação pela média de idade e tipo de bolsa. Observa-se que a média de participação foi iniciada com aproximadamente com 32 anos, diminuindo discretamente até alcançar, no ano de 2016, a idade média de 24 anos com a oferta de bolsas integrais e parciais se mantendo equilibrada.
Como melhoria evolutiva para este estudo é relevante identificar os pontos de idade máxima e mínima apresentados no gráfico de idade do participante, Figura 2.
A análise deste estudo apresenta o perfil do participante com idade média de 24 anos e que usa bolsa integral ou parcial. É necessário então realizar uma análise mais detalhada que preencha melhor as características do perfil com gênero, raça, e localização geográfica por região e estado além da predominância de curso que os participantes escolheram.
Sugere-se ainda estabelecer relacionamento com o Sisu que encaminha os egressos às instituições públicas de educação superior e o atendimento da demanda de estudantes dos dois programas com o quantitativo de egressos aptos a ingressarem no ensino superior, ou seja, que tenham alcançado pontuação mínima no ENEM para prosseguir com seu aperfeiçoamento acadêmico ou profissional.
Por fim, a identificação do perfil do participante do Prouni mostrou ser um estudo inicial da relevância das técnicas de Big Data para análise da informação como ciência da informação e a busca por soluções para a sociedade como função relevante do cientista de dados. A essência da análise de dados é a descoberta de padrões entre as variáveis nos dados que demonstram relações regulares ocultas e trazem a resposta para a solução do questionamento elaborado. A identificação de padrões nos dados, com o auxílio dos computadores, é relevante porém são os seres humanos que iniciaram com a elaboração da pergunta, ou questionamento, ou necessidade e realizam as adequadas interpretações para validar o que foi realizado computacionalmente.
Referências bibliográficas
BORKO, H. (1968). Information science: what is this?. American Documentation, v.19, p.03-05.
BUCKLAND, M. K. Information as thing. Journal of the American Society forInformation Science, v. 45, n. 5, p. 351-360, 1991.
DAVENPORT, T. H. Ecologia da Informação: Por que só a tecnologia não basta para o sucesso na era da informação. São Paulo: Futura, 1998, 2ª reimpressão, 2000, 316 p.
___________. Dados demais!: como desenvolver habilidades analíticas para resolver problemas complexos, reduzir riscos e decidir melhor. 1ª Ed. Rio de Janeiro: Elsevier, 2014.
Diebold, F. “Big Data Dynamic Factor Models for Macroeconomic Measurement and Forecasting“, Discussion Read to the Eighth World Congress of the Econometric Society, Seattle, August. (2000).Disponível em <http://www.ssc.upenn.edu/~fdiebold/papers/paper40/temp-wc.PDF>. Acesso em 20 mai 2017
LAKATOS, E .M.; MARCONI, M. A. Técnicas de pesquisa: planejamento e execução de pesquisas, amostragens e técnicas de pesquisa, elaboração, análise e interpretação de dados. 7a ed. 8a reimpr. São Paulo: Atlas, 2015. 277 p.
LE COADIC, YVES FRANÇOIS. A ciência da informação. Tradução de Maria Yeda F. S. de Filgueiras Gomes. Brasília: Briquet de Lemos, 1996
McAfee, Andrew e Brynjolfsson, Erick. Bigdata: The Management Revolution. Disponibilizado em: < https://hbr.org/2012/10/big-data-the-management-revolution?referral=03758&cm_vc=rr_item_page.top_right >. Acesso em 20 mai 2017.
MARR, B. Data Strategy: How to proffit from a world of Big Data, Analytics and the Internet of Things. Ed. Kogan Page. 2017
SCHUTT, Rachel; O’NEIL, Cathy. Doing Data Science. Sebastopol, CA: O’Reilly Media, 2014
SOUZA, R. R.; ALMEIDA, M. C. B.; BARACHO, R. M. A. Ciência da informação em transformação: big data, nuvens, redes sociais e web semântica. Ciência da Informação, v. 42, n. 2, 2013. Disponível em: <http://basessibi.c3sl.ufpr.br/brapci/v/a/18539>. Acesso em: 10 Mai. 2017.