Edré Quintão: Mineração de Dados e Algoritmos através de exemplos
O servidor Edré Quintão Moreira é bacharel, Mestre e Doutorando em Ciência da Computação pela UFMG. Ele foi arquiteto de software em projetos na FUNDEP, de 2000 a 2013. Em sua fala, procura fazer o link entre a informática e algumas questões de Direito.
Ao expor sobre mineração de dados e algoritmos, o analista de computação explica que a mineração visa a analisar grandes volumes de dados e a procurar por informações que estão ali, mas escondidas, como que soterradas entre milhões de outros dados. Ela é fundamental para que se extraia do big data as informações de interesse, principalmente quando se lida com muitas variáveis, como sexo, idade, cidade de residência etc. E a questão não é só o grande volume de dados, mas é que nem toda informação registrada ali será relevante. “O problema da mineração é, justamente, selecionar quais são dos dados relevantes dentro daquela massa de informações”, comenta.
Técnicas de mineração de dados - Conforme esclarece o palestrante, existem dois tipos de mineração, sendo uma delas a chamada “técnica de aprendizado supervisionado”. Como exemplo, ele cita a grande massa de processos julgados, cujas informações e resultados finais compõem do banco de dados do Tribunal. “Se existe um passado que eu já conheço e aquele passado já tem um rótulo (isto é, já foi identificado e catalogado), torna-se possível que eu aprenda com isso, pois temos um ponto de partida”, explicou. Essa é uma das técnicas da mineração: olhar para o passado, pelos dados que já se tem, e tentar detectar os padrões, em meio à própria massa de dados, até identificar o que foge do padrão, o que pode ser indício de algo errado ou a se trabalhar. Mas, ressalta o técnico, esses algoritmos de mineração não nos são dados assim, de graça, já que essas variáveis não são diretamente observáveis, vez que só se expressam numericamente. Quando se usa a parte da mineração chamada “aprendizado de máquina” são extraídas as informações latentes (aquelas que estão ali, no contexto dos dados, mas a gente não consegue ver).
Por exemplo, numa busca para detectar lavagem de dinheiro, toma-se uma massa de dados, que são os extratos bancários. Não se sabe quem é o fraudador, mas pode-se extrair os padrões comuns e procurar pelos padrões incomuns, apresentando-os como uma anomalia numérica que pode indicar uma fraude. Nesse caso, a mineração foi usada para predição. Em outro exemplo dado, ele contou como funciona a sugestão de amizade pelo Facebook. “Isso foi inferido a partir de um grande conjunto de dados que existia no Facebook. Se o Paulo é amigo do João, que é amigo da Carla, e você conhece o Paulo, é provável que você conheça também o João e a Carla. Isso é um tipo de predição”, revela.
Pela teoria apresentada, quando o cliente leva ao advogado um problema envolvendo um conjunto complexo de fatos e pedidos, o que o advogado faz é olhar para aquilo que ele conhece, de casos semelhantes, e tentar calcular a probabilidade de sucesso daquela causa. De acordo com Edré, usando algoritmo de aprendizado seria possível compilar os textos dessas causas e preparar uma máquina para que pudesse dar essa previsão. Os algoritmos podem avaliar esses documentos, descobrir fatores que não saltam aos olhos, mas que são relações complexas que estavam ali naqueles documentos, revelando ações que foram julgadas de uma forma favorável ou desfavorável. O grande problema, segundo aponta, é extrair informações de arquivos de textos. Mas hoje já se tem algoritmos muito sofisticados, que comparam dois textos que dizem as mesmas coisas de formas diferentes. “Dada a massa de dados que temos hoje em dia, conseguem-se bons resultados com isso”, garante.
Agrupamento facilita busca - Um outro cenário, segundo as explicações do analista, é o de agrupamento, que é utilizado, por exemplo, pelas empresas de registro de patentes. Nesse caso, será preciso descobrir se já se tem algo idêntico registrado ou se é, de fato, inédito. “Com algoritmos de mineração, é possível fazer agrupamentos que não são simples comparações de texto. São comparações de conteúdo e de significado daqueles documentos, para tentar agrupar”, esclareceu. Assim, em vez de procurar em documento por documento, pode-se procurar em cada grupo.
Outro ponto abordado pelo palestrante foi a classificação. Funciona assim: na petição inicial no PJe o advogado determina o assunto e anexa documentos com a petição. Nesse procedimento, ele está sujeito a erros na sua interpretação dos termos a lide: “Tem toda uma semântica por trás daquele termo que, muitas vezes, não é tão evidente. Mas, usando o passado, que a gente sabe porque já foi rotulado, conseguimos, analisando o texto que está sendo inserido, sugerir para ele quais são os termos que dizem respeito àquela petição. E aí você tem uma classificação da petição ou do documento no sistema do Pje até com maior acurácia do que a classificação manual feita pelo advogado”.
Ajuda automática na análise das petições - Num cenário em que o advogado fundamenta a causa com citações de decisões anteriores, já ultrapassadas, ou de leis já revogadas, em geral, os juízes e seus assistentes perdem muito tempo analisando aquela petição até chegar à conclusão de que aquilo ali é algo com fundamento ultrapassado. Pois o palestrante apresenta uma ferramenta que pode ser uma verdadeira preciosidade para magistrados e assistentes na análise de petições. É que, com o algoritmo de detecção de anomalias, esses pontos podem ser detectados de forma muito rápida, já que o sistema apontará, de imediato, a falha para o analista. A identificação dos padrões esperados é que gera essa possibilidade de agrupamento, de classificação e de detecção de anomalias. “É por isso que sempre procuramos por padrões que se repetem, contra padrões que são diferentes do resto. A partir da análise comparativa dos padrões esperados e detecção de anomalias, pode-se até identificar terroristas em redes sociais”, assegura o servidor.
Big data forever - Ao tratar de Inteligência Artificial, ele mostra um gráfico com um alvo e uns pontos que tentam acertar o centro dele. Conforme explicou, quanto mais exemplos diversificados tivermos em nossa base de dados e quanto mais conhecermos desse passado, mais chances de acertar esse alvo. Assim, catalogando processos que só dizem respeito a horas extras, não se consegue classificar algo sobre férias não pagas, já que o modelo não foi suficiente para prever aquilo que se precisa trabalhar. “Daí a importância, não só da quantidade, mas também da variedade de dados acumulados. Para construir um bom modelo, precisamos ter, tanto uma boa representatividade no conjunto, quanto volume de dados, para podermos apurar quais são os padrões normais daquela situação. Ou seja, não tem como fugir do Big Data”, vaticinou o informático.
Finalizando, Edré Quintão ponderou que o fundamental para o sucesso de um projeto de Big Data no Judiciário é unir os profissionais das duas áreas: Direito e Informática. “Não adianta você me dar a base de dados PJe e me pedir para achar os padrões. Eu posso até tentar encontrá-los, mas quem vai dizer se estão certos ou se tem alguma relevância é quem entende do negócio”, pontua, explicando sobre o papel e a importância da interação nos processos de mineração. A avaliação depende tanto do cientista de dados, quanto do especialista na área pesquisada para se definir o significado, a utilidade e a aplicação dos padrões e dados minerados.