Prompt Injection

Prompt injection to termin używany w kontekście modeli językowych i odnosi się do techniki wprowadzania dodatkowej treści lub instrukcji do promptu w celu wpływania na generowane odpowiedzi. Krótko mówiąc, pozwala to zmusić model do powiedzenia czegokolwiek, co chcemy.

Jak widać na powyższym przykładzie, użytkownikowi udało się wygenerować odpowiedź, która jest niezgodna z polityką OpenAI. Dziś ChatGPT radzi sobie dużo lepiej i odpowiada tak:

Przepraszam, ale nie mogę wykonać takiego żądania.

Źródła

PreviousHack Prompting NextPrompt Leaking

Last updated 1 year ago

Was this helpful?