12 Dicas de Compliance para projetos de Machine Learning

A inteligência artificial levanta questões cruciais e novas, especialmente no que diz respeito à proteção de dados, com impactos diretos às boas práticas de ESG Environment, Social & Governance ou, em uma tradução mais adequada para o português, Governança Ambiental, Social e Corporativa.

Cada vez mais, plataformas digitais imersivas, intuitivas e sensitivas, onde os usuários passariam por experiências compartilhadas com várias outras pessoas ao mesmo tempo, cujo impacto e efeitos podem se materializar tanto de forma virtual ou material. Desta forma, as plataformas digitais são feitas para socialização dos usuários e não para serem utilizadas apenas isoladamente. Hoje, está se tornando cada vez mais difícil distinguir a vida real da digital, tendo em vista a quantidade de estímulos virtuais que nossas rotinas são impactadas. Gradativamente, estamos replicando nossas rotinas, interesses e obsessões nos mundos digitais.

Este ambiente imersivo e diversificado não passou desapercebido para mercados altamente competitivos, ocasião em que várias empresas de porte mundial já manifestaram amplamente suas estratégias de crescimento em explorar suas lojas físicas integradas aos canais digitais para alavancar negócios fora dos ambientes tradicionais do varejo, tais como publicidade, serviços, saúde, financeiro, logística, tecnologia, entre outras.

Afinal, a utilização de machine learning, inteligência artificial e customer experience são tendências irretroativas que envolvem a jornada de acesso e atendimento a um determinado cliente. Avanços importantes na tecnologia nos últimos vinte anos, que envolvem a coleta e o processamento massivo de dados pessoais e hábitos de consumo, auxiliam na assertividade de ofertas comerciais e otimização na logística do atendimento. Nos dias atuais, não existem modelos de atendimento ao cliente que não contem com inteligência artificial em seus projetos.

Do ponto de vista de segurança jurídica, essas plataformas digitais apresentam questões polêmicas de segurança cibernética e privacidade, que merecem muita atenção. Quão segura é uma conversa entre um consumidor em uma empresa em plataformas digitais, muitas vezes realizadas por “robôs”, contra qualquer tipo de interceptação e vazamento?

Todos os consumidores fornecem informações pessoais às empresas, mesmo que apenas durante a constituição de um contrato de adesão. Em alguns casos, há clientes que fornecem propriedade intelectual valiosa, mas ainda não patenteada, e que pode ser usurpada por infratores.

Não é difícil imaginar que uma empresa possa atrair hackers que desejam extrair resgates ou realizar espionagem industrial contra seus consumidores, tentando extrair informações de senhas e perfis, para serem utilizadas de forma inapropriada.

Assim sendo, a tendência hoje é que as empresas utilizem cada vez mais plataformas digitais automatizadas para divulgação dos seus serviços e para impactar potenciais clientes mas, à partir daí, a captação de clientes deve ser endereçada para suas plataformas digitais privadas on-line, ou para ferramentas de comunicação privada criptografada (por exemplo, as plataformas de chat ou videoconferência que nos acostumamos a usar durante a pandemia).

Desta forma, merecem destaque as 12 dicas de Compliance de como a Inteligência Artificial deve se adequar para não infringir dados pessoais, de acordo com as orientações da Commission Nationale de l’informatique et des Libetres, que é a autoridade nacional francesa de proteção de dados:

12 Dicas de Compliance para projetos de Machine Learning

1 – Definindo um propósito

Para cumprir um bom programa de privacidade de dados, um sistema de inteligência artificial (IA) baseado no uso de dados pessoais deve sempre ser desenvolvido, treinado e implantado com uma finalidade (objetivo) claramente definida. Este objetivo deve ser determinado, ou seja, estabelecido previamente na fase de concepção do projeto. Também deve ser legítimo e, portanto, compatível com as missões da organização. Por último, deve ser claro, ou seja, conhecido e compreensível.

Tal como acontece com todos os processamentos de dados, mas ainda mais quando se trata de grandes quantidades de dados pessoais – como é frequentemente o caso com sistemas de IA – o respeito ao propósito deve ser assegurado. Isso é especialmente importante, pois é o propósito/finalidade que garante que apenas os dados relevantes sejam usados e que o período de retenção seja apropriado.

A implementação de um sistema de IA baseado em aprendizado de máquina requer duas fases sucessivas:

Em termos de proteção de dados, essas duas etapas não atendem ao mesmo objetivo e, portanto, devem ser separadas. Em ambos os casos, a finalidade do tratamento de dados pessoais realizado durante cada fase deve ser determinada, legítima e clara.

 

2 – Estabelecendo uma base legal

Tal como acontece com todos os tratamentos, um sistema de IA que utiliza dados pessoais só pode ser implementado para uma utilização justificada por lei. A Lei Geral de Proteção de Dados (LGPD), bem como a GDPR (General Data Protection Regulation, legislação da Comunidade Europeia de proteção de dados), estabelecem 6 desses fundamentos legais: consentimento, cumprimento de uma obrigação legal, execução de um contrato, cumprimento de uma missão de interesse público, mediante a salvaguarda de interesses vitais e prossecução de um interesse legítimo. Mais especificamente, a base legal é o confere a uma organização o direito de processar e tratar dados pessoais. A escolha dessa base jurídica é, portanto, um primeiro passo essencial para garantir a conformidade de processamento. Dependendo da base escolhida, as obrigações da organização e os direitos dos indivíduos podem variar.

A base legal deve ser escolhida antes da implementação do processamento de dados. Embora fundamentalmente não haja diferença entre a implementação de um sistema de IA e qualquer outro tratamento de dados pessoais, existem alguns aspectos específicos que requerem vigilância. Os sistemas de IA – e em particular aqueles baseados em machine learning – precisam, portanto, usar dados na fase de aprendizado antes de serem aplicados a outros dados na fase operacional.

Em qualquer caso, um sistema de IA não pode ser implementado em dados pessoais coletados ilegalmente, seja na fase de aprendizado ou na fase operacional. Ademais, cumpre esclarecer que o objetivo de “pesquisa científica” não pode, por si só, constituir uma base legal para o processamento. Apenas as bases legais listadas na LGPD ou na GDPR podem permitir o processamento de dados pessoais.

 

3 – Compilando um banco de dados

Os sistemas de IA, e em particular aqueles baseados em machine learning, requerem grandes volumes de dados. Estes são essenciais, tanto para a formação de sistemas como para fins de avaliação, benchmarking e validação. A constituição de conjuntos de dados sempre foi um desafio para a tecnologia e exige um grande esforço, pois devem ser combinados com conteúdos que descrevem os dados e ser rotulados, limpos, padronizados, etc. É, portanto, um desafio essencial no processamento de inteligência artificial.

Na prática

Existem duas opções principais para a constituição de conjuntos de dados: a coleta específica de dados pessoais para esta finalidade e a reutilização de dados já recolhidos para outra finalidade. Neste último caso, coloca-se a questão de saber se as finalidades para as quais os dados foram inicialmente recolhidos são compatíveis com as condições em que o conjunto de dados inicial foi constituído. Em qualquer caso, a constituição de conjuntos de dados que contenham dados pessoais, muitas vezes baseados em longos períodos de retenção de dados, não deve ser feito em detrimento dos direitos dos titulares dos dados. Em particular, deve ser acompanhado de informações:

Esta informação é essencial para o exercício de outros direitos (acesso, retificação, apagamento, oposição).

Exemplos

No domínio da saúde, a Commission Nationale de l’informatique et des Libetres teve oportunidade de se pronunciar sobre a criação de datawarehouses (base de dados estruturados para cruzamento de informações) de saúde. Em diretrizes publicadas recentemente, especifica a estrutura dentro da qual os dados podem ser coletados e retidos em um único banco de dados por um longo período de tempo, como parte de missões de interesse público e para pesquisas subsequentes. No âmbito de um pedido de aconselhamento, os serviços da Commission Nationale de l’informatique et des Libetres puderam aceitar a reutilização de imagens de vídeo em um determinado contexto para investigação científica sobre a compreensão dos movimentos de multidões. No entanto, foi especificado que, para isso, a coleta deveria:

 

4 – Minimizando dados

Os dados pessoais recolhidos e utilizados devem ser adequados, relevantes e limitados ao necessário para o objetivo definido: este é o princípio da minimização de dados. Deve ser prestada grande atenção à natureza dos dados e este princípio deve ser aplicado de forma particularmente rigorosa quando os dados tratados são dados sensíveis (artigo 9º da GDPR e artigo 5º, inciso II, da LGPD).

Os sistemas de IA mais proeminentes e discutidos atualmente são baseados em métodos de aprendizado de máquina extremamente poderosos (machine learning). A melhoria destes métodos tornou-se possível pelos efeitos combinados de:

Embora o uso de grandes quantidades de dados seja fundamental para o desenvolvimento e uso de sistemas de IA, o princípio de minimização não é em si um obstáculo a esse processamento.

Na prática

É necessário determinar os tipos de dados necessários para treinar e operar um sistema de IA, por exemplo, por meio de experimentos e testes em dados fictícios, ou seja, dados com a mesma estrutura de dados reais, mas não vinculados a um indivíduo. Esses dados não constituem dados pessoais. A quantidade de dados necessária para treinar o sistema também deve ser estimada com precisão e balanceada com a finalidade do tratamento, de acordo com o princípio da proporcionalidade. A fase de aprendizado (ou treinamento) visa efetivamente desenvolver um sistema de IA e, assim, explorar as possibilidades oferecidas pelo aprendizado de máquina, e pode exigir uma grande quantidade de dados, alguns dos quais acabarão se mostrando inúteis na fase de implantação.

Portanto, o uso razoável dos dados deve ser feito, no seguinte sentido:

Exemplo

Como parte de uma pesquisa clínica voltada para a identificação de variáveis explicativas para o câncer de próstata, a Commission Nationale de l’informatique et des Libetres recusou-se a permitir que um laboratório farmacêutico processasse dados de toda a população ativa de pacientes dos prontuários dos vários centros participantes do estudo.

Essa população ativa de pacientes continha, de fato, centenas de milhões de registros de indivíduos que não sofriam de câncer de próstata (e até registros de mulheres). O desejo de processar esses dados, cientificamente explicado pela necessidade de “verdadeiros negativos” para treinar efetivamente um classificador, parecia de fato desproporcional ao objetivo do processamento e não necessário para o desenvolvimento de uma IA eficaz sistema.

Aprendizagem vs produção – o caso específico dos sistemas de IA

Durante a fase de aprendizagem, é possível uma supervisão relativamente flexível quanto ao acesso a volumes suficientes e a dados suficientemente diversos, sujeito a contrapartidas proporcionais aos riscos que o tratamento suscita (nomeadamente, a natureza dos dados, o seu volume e a finalidade do sistema de IA deve ser levado em consideração). As medidas podem incluir:

Somente após a conclusão da fase de aprendizado, a implantação do sistema de IA na fase de produção pode ser considerada. Para esta segunda fase, à saída do ambiente “laboratorial”, terão de ser implementados maiores constrangimentos para monitorizar o processamento.

Por exemplo, será necessário limitar o tipo de dados pessoais para incluir apenas os dados que se mostraram essenciais após a fase de aprendizagem e determinar as medidas adequadas, uma vez que as restrições de produção diferem das restrições de design e desenvolvimento, desde que esta primeira fase não apresente riscos particulares para os indivíduos.

 

5 – Definindo um período de retenção

Os dados pessoais não podem ser retidos indefinidamente. A LGPD e a  GDPR exigem que seja especificado um limite de tempo além do qual os dados devem ser excluídos ou, em alguns casos, arquivados. Este período de retenção deve ser determinado pelo controlador de dados com base no objetivo para o qual os dados foram coletados.

A implementação de um sistema de IA pode, em muitos casos, exigir a retenção de dados pessoais por um período de tempo mais longo do que para outras operações de processamento. Este pode ser o caso da compilação de conjuntos de dados para treinamento e desenvolvimento de novos sistemas, mas também para atender aos requisitos de rastreabilidade e medição de desempenho ao longo do tempo quando o sistema é colocado em produção.

A necessidade de definir um período de retenção para os dados não impede a implementação de operações de processamento de IA. Este período deve ser sempre proporcional ao objetivo: por exemplo, o objetivo da medição de desempenho deve ser claramente programado para ser usado e os dados retidos por mais tempo para esse fim devem ser selecionados adequadamente. O simples propósito de medir o desempenho ao longo do tempo não é, a priori, suficiente para justificar a retenção de todos os dados por longos períodos.

No entanto, para processamento de IA realizado para fins de pesquisa científica, os dados podem ser retidos por períodos de tempo mais longos.

 

6 – Supervisionando a melhoria contínua

A distinção entre as fases de aprendizado e produção nem sempre é clara para todos os sistemas de IA. Este é particularmente o caso de sistemas de aprendizagem “contínuos”, onde os dados usados durante a fase de produção também são usados para melhorar o sistema, criando assim um circuito completo de alimentação de dados. O processo de reaprendizagem pode ser considerado em diferentes frequências, por exemplo, após algumas horas, dias ou meses, dependendo do objetivo.

Perguntas a serem feitas

Além dos riscos de desvio inerentes à aprendizagem contínua (introdução de viés condicionado discriminatório, deterioração de desempenhos etc.), a utilização de dados para dois propósitos distintos (aquele para o qual o sistema de IA é colocado em produção e a melhoria intrínseca do sistema), levantam-se questões polêmicas em termos de proteção de dados, quais sejam:

Exemplos

Nos casos em que se pronunciou, a Commission Nationale de l’informatique et des Libetres sempre considerou que era possível separar as fases de aprendizagem e produção, ainda que interligadas. Por exemplo, no seu white paper sobre assistentes de voz, a Commission Nationale de l’informatique et des Libetres analisa o cenário da reutilização dos dados recolhidos por um assistente de voz para melhorar o serviço. É especificamente referido o exemplo da anotação de novos exemplos de aprendizagem para melhorar o desempenho dos sistemas de inteligência artificial e é feita uma clara distinção entre este processamento e o implementado para a execução do serviço esperado pelo utilizador do assistente de voz.

No que diz respeito à divisão de responsabilidades entre as partes envolvidas, a Commission Nationale de l’informatique et des Libetres pronunciou-se recentemente sobre a questão da reutilização por parte de um subcontratante de dados que lhe foram confiados por um responsável pelo tratamento. Aplicado ao caso de sistemas de IA, a reutilização por um provedor de sistema é legalmente possível se várias condições forem atendidas: autorização do controlador de dados, teste de compatibilidade, informação dos indivíduos e respeito pelos seus direitos e conformidade do novo processamento implementado.

 

7 – Proteção contra os riscos envolvidos com modelos de IA

A metodologia de machine learning é baseada na criação de modelos. Essas são representações do que os sistemas de IA aprenderam com os dados de treinamento. Desde cerca de 2010, surgiu um importante campo de pesquisa sobre o assunto de proteção de modelos de IA e, em particular, as possibilidades de recuperação de informações, que podem ter implicações importantes para a confidencialidade dos dados pessoais.

A possibilidade de realizar ataques e recuperar informações põe em questão a própria natureza dos objetivos introduzidos pela inteligência artificial. Medidas técnicas e organizacionais devem, portanto, ser implementadas para minimizar os riscos de ataques.

Se um modelo de IA estiver sujeito a um ataque de privacidade bem-sucedido, isso pode constituir uma violação de dados. O modelo em questão deve então ser retirado o mais rapidamente possível e a violação de dados notificada à autoridade de proteção de dados competente se a violação for suscetível de resultar em risco para os direitos e liberdades dos titulares dos dados.

 

8 – Fornecendo informações

O princípio da transparência, mencionados expressamente na LGPD e na GDPR, exigem que qualquer informação ou comunicação relativa ao tratamento de dados pessoais seja concisa, transparente, compreensível e facilmente acessível, utilizando uma linguagem clara e simples.

Embora os principais princípios da GDPR e da LGPD se apliquem no caso de sistemas de IA, as informações a serem fornecidas aos indivíduos podem variar:

 

9 – Implementação do exercício de direitos

Os titulares possuem direitos para ajudá-los a manter o controle de seus dados. O fato é que o responsável pelo tratamento dos dados deve explicar aos titulares como podem e devem exercer os seus direitos.

Sempre que o sistema de IA implique o tratamento de dados pessoais, deve-se assegurar o respeito pelos princípios de exercício dos direitos das pessoas, nos termos da GDPR e da LGPD:

I – finalidade: realização do tratamento para propósitos legítimos, específicos, explícitos e informados ao titular, sem possibilidade de tratamento posterior de forma incompatível com essas finalidades;

II – adequação: compatibilidade do tratamento com as finalidades informadas ao titular, de acordo com o contexto do tratamento;

III – necessidade: limitação do tratamento ao mínimo necessário para a realização de suas finalidades, com abrangência dos dados pertinentes, proporcionais e não excessivos em relação às finalidades do tratamento de dados;

IV – livre acesso: garantia, aos titulares, de consulta facilitada e gratuita sobre a forma e a duração do tratamento, bem como sobre a integralidade de seus dados pessoais;

V – qualidade dos dados: garantia, aos titulares, de exatidão, clareza, relevância e atualização dos dados, de acordo com a necessidade e para o cumprimento da finalidade de seu tratamento;

VI – transparência: garantia, aos titulares, de informações claras, precisas e facilmente acessíveis sobre a realização do tratamento e os respectivos agentes de tratamento, observados os segredos comercial e industrial;

VII – segurança: utilização de medidas técnicas e administrativas aptas a proteger os dados pessoais de acessos não autorizados e de situações acidentais ou ilícitas de destruição, perda, alteração, comunicação ou difusão;

VIII – prevenção: adoção de medidas para prevenir a ocorrência de danos em virtude do tratamento de dados pessoais;

IX – não discriminação: impossibilidade de realização do tratamento para fins discriminatórios ilícitos ou abusivos;

X – responsabilização e prestação de contas: demonstração, pelo agente, da adoção de medidas eficazes e capazes de comprovar a observância e o cumprimento das normas de proteção de dados pessoais e, inclusive, da eficácia dessas medidas.

Esses direitos oferecem proteção essencial para os indivíduos, permitindo que eles não sofram as consequências de um sistema automatizado sem ter a possibilidade de entender e, se necessário, opor-se ao processamento de dados que lhes digam respeito. Na prática, esses direitos se aplicam ao longo do ciclo de vida do sistema de IA e, portanto, abrangem os dados pessoais:

Os controladores de dados devem, portanto, estar cientes desde a fase de projeto do sistema que devem incluir mecanismos e procedimentos adequados para responder às solicitações que possam ser recebidas.

O responsável pelo tratamento de dados não deve recolher ou reter informações adicionais para identificar o titular dos dados com a única finalidade de cumprimento da GDPR ou da LGPD.

 

10 – Supervisão de decisões automatizadas

Os indivíduos têm o direito de não ficarem sujeitos a uma decisão totalmente automatizada – muitas vezes baseada na definição de perfis – que tenha efeitos jurídicos ou os afete significativamente. No entanto, uma organização pode automatizar esse tipo de decisão se:

Nesses cenários, deve ser possível para os indivíduos:

Na prática

Os sistemas de IA geralmente fazem parte do processamento que pode implementar mecanismos de tomada de decisões automatizadas.

O responsável pelo tratamento deve, assim, antecipar a possibilidade de intervenção humana para permitir que os titulares dos dados tenham a sua situação revista, exprimam o seu ponto de vista, obtenham uma explicação sobre a decisão tomada e contestem a decisão. No caso da ajuda à tomada de decisão, também são necessárias garantias, nomeadamente ao nível da informação.

Exemplos

A questão que se coloca é a definição do que constitui uma decisão individual automatizada e o grau de intervenção humana desejável no caso de sistemas de IA.

No seu projeto de guia de recrutamento, a Commission Nationale de l’informatique et des Libetres analisa a utilização de algumas ferramentas automatizadas para classificar e até avaliar as candidaturas. Tais soluções podem levar a uma “decisão baseada exclusivamente no processamento automatizado” por design quando os pedidos são rejeitados, ou quando os pedidos são relegados a um segundo plano não monitorado por um humano por falta de tempo, por exemplo. Devido aos riscos associados a este método de tomada de decisão, muitas vezes obscuro para os candidatos, tais processos são, em princípio, proibidos pela GDPR. A sua utilização é permitida apenas em circunstâncias excecionais e está sujeita à implementação de salvaguardas específicas para proteger os direitos e interesses dos candidatos.

A Commission Nationale de l’informatique et des Libetres teve oportunidade de se pronunciar sobre o tratamento de dados implementado por uma autoridade administrativa e que visava, a título experimental, a utilização de conteúdos de livre acesso online em plataformas que punham em contato vários usuários com vista à venda de um bem (marketplaces), proporcionando um serviço ou trocar ou compartilhar um conteúdo, bem ou serviço. Nesse parecer, a Commission Nationale de l’informatique et des Libetres especificou que os dados modelados pelo tratamento não devem, em caso algum, conduzir à marcação automática de auditorias fiscais nem, ainda mais importante, a decisões diretamente oponíveis aos contribuintes.

 

11 – Avaliando o sistema

A avaliação dos sistemas de IA é uma questão fundamental e está no centro do projeto de regulamento da Comissão Europeia. Do ponto de vista da proteção de dados, isso é essencial para:

Exemplo

Num contexto de experimentação da tecnologia de reconhecimento facial, a Commission Nationale de l’informatique et des Libetres exigiu que o relatório fosse acompanhado de um minucioso protocolo de avaliação que permitisse aferir com precisão a contribuição desta tecnologia. Na prática, pediu para ser fornecido com:

 

12 – Evitando a discriminação algorítmica

O uso de sistemas de IA também pode levar a riscos de discriminação (Preconceito Algorítmico). Há muitas razões para isso, com possíveis origens sendo:

Exemplos

No acompanhamento de uma organização que implementou um sistema de avaliação automática de vídeo currículos gravados por candidatos durante uma campanha de recrutamento, a Commission Nationale de l’informatique et des Libetres constatou a existência de um viés discriminatório. Nesse caso, o sistema desenvolvido para qualificar as habilidades sociais dos indivíduos não foi capaz de levar em conta a diversidade de seus sotaques.

A Commission Nationale de l’informatique et des Libetres teve a oportunidade de assessorar a Defensoria de Direitos na publicação do relatório “Algoritmos: prevenindo a automatização da discriminação”. Em particular, apela à conscientização coletiva e alerta as autoridades públicas e as partes interessadas a tomar medidas tangíveis e práticas para evitar que a discriminação seja reproduzida e amplificada por essas tecnologias.

 

Quer a AAA Inovação ajudando sua empresa a crescer?

Sair da versão mobile