Como a Microsoft protege modelos de IA contra ataques de prompts

A utilização de ferramentas de Inteligência Artificial (IA) para simplificar tarefas como responder a perguntas de clientes ou resumir e-mails é uma prática cada vez mais comum.

No entanto, as capacidades avançadas dessas ferramentas também as tornam vulneráveis a ataques de prompts — técnicas utilizadas para enganar os modelos de IA e obter respostas indesejadas ou prejudiciais.

Tipos de Ataques de Prompts

Os ataques de prompts dividem-se em duas categorias principais:

Ataques Directos (Jailbreaks): Ocorrem quando um utilizador introduz directamente comandos maliciosos no sistema, como pedir à IA que ignore regras ou adopte um comportamento inadequado. Este termo remonta à prática de desbloquear telemóveis para remover restrições dos fabricantes.
Ataques Indirectos: Envolvem a inserção de instruções maliciosas ocultas em documentos, e-mails, websites ou outros conteúdos processados por IA. Por exemplo, um e-mail aparentemente inofensivo pode conter comandos ocultos num tipo de letra branco ou imagens codificadas.

Embora os jailbreaks sejam mais conhecidos, os ataques indirectos apresentam maior perigo, podendo levar a fugas de dados e acesso não autorizado a informações confidenciais.

A Abordagem da Microsoft para Proteger Contra Ataques

A Microsoft desenvolveu uma estratégia robusta para combater estes ataques e proteger os seus sistemas de IA.

Prompt Shields e Avaliações de Segurança

O Prompt Shields é um modelo avançado capaz de detectar e bloquear comandos maliciosos em tempo real. Paralelamente, as avaliações de segurança simulam cenários de ataques para medir a vulnerabilidade das aplicações a prompts prejudiciais. Ambas as ferramentas estão disponíveis na Azure AI Foundry.

Defesas no Microsoft Defender e Purview

O Microsoft Defender for Cloud previne ataques futuros ao bloquear atacantes e analisar ameaças.
O Microsoft Purview permite a gestão segura de dados sensíveis utilizados em aplicações de IA.

Experiência em Cibersegurança

A experiência da Microsoft em segurança é sustentada por equipas como a AI Red Team e o Microsoft Security Response Center, que investigam ataques e gerem programas de Bug Bounty. Este último incentiva investigadores externos a reportar vulnerabilidades, incluindo em produtos de IA e Cloud.

Inovação na Identificação de Ataques

A investigação da Microsoft tem conduzido a avanços significativos:

O “Spotlighting”, um conjunto de técnicas que ajuda os modelos de linguagem (LLMs) a distinguir comandos válidos de adversários.
O estudo da “task drift”, que avalia como os modelos processam tarefas com e sem documentos de base, é uma abordagem promissora para identificar ataques indirectos.

Redução de Riscos e Boas Práticas

A Microsoft promove uma defesa multicamada que inclui:

Regras de sistema robustas que orientam os modelos de IA.
Melhores práticas publicadas para ajudar organizações a proteger os seus sistemas contra ameaças.

Saiba mais sobre estas iniciativas no site da Microsoft sobre IA Responsável.

O Futuro da Segurança em IA

Com a evolução contínua da tecnologia, a Microsoft continua a investir em soluções inovadoras que não só fortalecem a protecção dos seus produtos, mas também contribuem para o desenvolvimento de práticas de segurança mais abrangentes e eficazes.

Se desejar mais informações sobre as ferramentas mencionadas ou detalhes técnicos, visite as páginas dedicadas no Azure AI Foundry.

Como a Microsoft protege modelos de IA contra ataques de prompts

João Gata

LG lança o primeiro monitor de gaming 5K2K dobrável do mundo

Deixe um comentário Cancelar resposta

Recomendados.

Dell lança nova gama Latitude e novos monitores (CES 2016)

Apple iOS 6.1 tem suporte para 4G LTE

10º FESTIVAL MENTAL

Parceiros