
A utilização de ferramentas de Inteligência Artificial (IA) para simplificar tarefas como responder a perguntas de clientes ou resumir e-mails é uma prática cada vez mais comum.
No entanto, as capacidades avançadas dessas ferramentas também as tornam vulneráveis a ataques de prompts — técnicas utilizadas para enganar os modelos de IA e obter respostas indesejadas ou prejudiciais.
Tipos de Ataques de Prompts
Os ataques de prompts dividem-se em duas categorias principais:
- Ataques Directos (Jailbreaks): Ocorrem quando um utilizador introduz directamente comandos maliciosos no sistema, como pedir à IA que ignore regras ou adopte um comportamento inadequado. Este termo remonta à prática de desbloquear telemóveis para remover restrições dos fabricantes.
- Ataques Indirectos: Envolvem a inserção de instruções maliciosas ocultas em documentos, e-mails, websites ou outros conteúdos processados por IA. Por exemplo, um e-mail aparentemente inofensivo pode conter comandos ocultos num tipo de letra branco ou imagens codificadas.
Embora os jailbreaks sejam mais conhecidos, os ataques indirectos apresentam maior perigo, podendo levar a fugas de dados e acesso não autorizado a informações confidenciais.
A Abordagem da Microsoft para Proteger Contra Ataques
A Microsoft desenvolveu uma estratégia robusta para combater estes ataques e proteger os seus sistemas de IA.
Prompt Shields e Avaliações de Segurança
O Prompt Shields é um modelo avançado capaz de detectar e bloquear comandos maliciosos em tempo real. Paralelamente, as avaliações de segurança simulam cenários de ataques para medir a vulnerabilidade das aplicações a prompts prejudiciais. Ambas as ferramentas estão disponíveis na Azure AI Foundry.
Defesas no Microsoft Defender e Purview
- O Microsoft Defender for Cloud previne ataques futuros ao bloquear atacantes e analisar ameaças.
- O Microsoft Purview permite a gestão segura de dados sensíveis utilizados em aplicações de IA.
Experiência em Cibersegurança
A experiência da Microsoft em segurança é sustentada por equipas como a AI Red Team e o Microsoft Security Response Center, que investigam ataques e gerem programas de Bug Bounty. Este último incentiva investigadores externos a reportar vulnerabilidades, incluindo em produtos de IA e Cloud.
Inovação na Identificação de Ataques
A investigação da Microsoft tem conduzido a avanços significativos:
- O “Spotlighting”, um conjunto de técnicas que ajuda os modelos de linguagem (LLMs) a distinguir comandos válidos de adversários.
- O estudo da “task drift”, que avalia como os modelos processam tarefas com e sem documentos de base, é uma abordagem promissora para identificar ataques indirectos.
Redução de Riscos e Boas Práticas
A Microsoft promove uma defesa multicamada que inclui:
- Regras de sistema robustas que orientam os modelos de IA.
- Melhores práticas publicadas para ajudar organizações a proteger os seus sistemas contra ameaças.
Saiba mais sobre estas iniciativas no site da Microsoft sobre IA Responsável.
O Futuro da Segurança em IA
Com a evolução contínua da tecnologia, a Microsoft continua a investir em soluções inovadoras que não só fortalecem a protecção dos seus produtos, mas também contribuem para o desenvolvimento de práticas de segurança mais abrangentes e eficazes.
Se desejar mais informações sobre as ferramentas mencionadas ou detalhes técnicos, visite as páginas dedicadas no Azure AI Foundry.





