Prompt Leaking

Prompt leaking to termin używany w kontekście modeli językowych i odnosi się do sytuacji, w której w odpowiedziach generowanych przez model można wydobyć wrażliwe, poufne lub niewłaściwe informacje, które były zawarte w promptach.

Jednym z bardziej znanych przykładów takiego działania jest premiera wyszukiwarki Bing, która w swoich pierwszych dniach była bardzo podatna na tego typu wycieki. Poniżej zapis rozmowy:

Jak widać na załączonym obrazie, użytkownikowi udało się przekonać model obsługujący Binga, aby zdradził mu instrukcje, którymi ma się kierować przy generowaniu odpowiedzi. Wiele systemów posiadających interfejs graficzny do komunikacji z użytkownikiem ma tzw. ukryte prompty, które zawierają szereg informacji niedostępny dla użytkownika.

Poniżej można zobaczyć przykład dla innego narzędzia - GitHub Copilot.

Aby uniknąć prompt leakingu, istotne jest zachowanie ostrożności przy używaniu promptów i unikanie zawierania w nich wrażliwych lub poufnych informacji.

Źródła

  1. Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527

  2. Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/

  3. The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.). (2023). https://twitter.com/kliu128/status/1623472922374574080

  4. Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts

Last updated