Prompt Injection
Last updated
Was this helpful?
Last updated
Was this helpful?
Prompt injection to termin używany w kontekście modeli językowych i odnosi się do techniki wprowadzania dodatkowej treści lub instrukcji do promptu w celu wpływania na generowane odpowiedzi. Krótko mówiąc, pozwala to zmusić model do powiedzenia czegokolwiek, co chcemy.
Jak widać na powyższym przykładzie, użytkownikowi udało się wygenerować odpowiedź, która jest niezgodna z polityką OpenAI. Dziś ChatGPT radzi sobie dużo lepiej i odpowiada tak:
Co ciekawe, w sieci można znaleźć społeczność Jailbreak Chat, która na bieżąco stara się szukać nowych luk i sposobów na to, aby złamać chatGPT i dzieli się swoimi promptami. Więcej .
Goodside, R. (2022). Exploiting GPT-3 prompts with malicious inputs that order the model to ignore its previous directions.
Willison, S. (2022). Prompt injection attacks against GPT-3.
Chase, H. (2022). adversarial-prompts.
Goodside, R. (2023). History Correction.