Prompt Injection

Prompt injection to termin używany w kontekście modeli językowych i odnosi się do techniki wprowadzania dodatkowej treści lub instrukcji do promptu w celu wpływania na generowane odpowiedzi. Krótko mówiąc, pozwala to zmusić model do powiedzenia czegokolwiek, co chcemy.

Jak widać na powyższym przykładzie, użytkownikowi udało się wygenerować odpowiedź, która jest niezgodna z polityką OpenAI. Dziś ChatGPT radzi sobie dużo lepiej i odpowiada tak:

Przepraszam, ale nie mogę wykonać takiego żądania.

Co ciekawe, w sieci można znaleźć społeczność Jailbreak Chat, która na bieżąco stara się szukać nowych luk i sposobów na to, aby złamać chatGPT i dzieli się swoimi promptami. Więcej tutaj.

Źródła

  1. Goodside, R. (2022). Exploiting GPT-3 prompts with malicious inputs that order the model to ignore its previous directions. https://twitter.com/goodside/status/1569128808308957185

  2. Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/

  3. Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts

Last updated