Jailbreaking

PreviousPrompt Leaking NextHello Midjourney - Artur Kurasiński

Last updated 1 year ago

Was this helpful?

Jailbreaking

OSTRZEŻENIE

Próba wykorzystania tych metod w ChatGPT lub Google Bard może zostać automatycznie oznaczona i przesłana do sprawdzenia, co może skutkować czasowym lub permanentnym zablokowaniem konta użytkownika.

Jailbreaking to technika, w której próbuje się obejść lub uniknąć wbudowanych mechanizmów bezpieczeństwa i moderacji, które mają na celu kontrolę generowanych odpowiedzi.

W przypadku modeli językowych, oznacza to próbę wykorzystania modelu w sposób, który wykracza poza zamierzone zastosowanie lub narusza ustalone dla modelu wytyczne i regulacje.

Najbardziej znane metody to:

Pretending

Jedna z najpopularniejszych technik polegająca na tym, że polecenie jest sformułowane w taki sposób, aby model zinterpretował jako coś abstrakcyjnego lub fikcyjnego.

Simple Pretending

Jeśli ChatGPT zostanie zapytany o przyszłe wydarzenie, często odpowie, że nie wie, ponieważ jeszcze się nie wydarzyło. Poniżej można zobaczyć jak użytkownik wykorzystał prompt, aby chatGPT zastosował wnioskowanie dla wydarzeń z przyszłości.

Character roleplay

Alignment Hacking

Technika polegająca na modyfikacji prompta w taki sposób, aby generował odpowiedzi w określonym stylu, na przykład bardziej formalnym lub naukowym.

Research Experiment

Logical Reasoning

Authorized User

Technika polegająca na tworzeniu prompta w taki sposób, aby model zinterpretował instrukcję jako polecenie mające wyższy priorytet niż polecenia przekazywane do moderacji.

Superior Model

Sudo Mode

Sudo Mode to tryb działania lub uprawnienie dostępne w niektórych systemach operacyjnych lub programach komputerowych. Słowo "sudo" jest skrótem od anglojęzycznego wyrażenia "superuser do", co oznacza, że użytkownik uzyskuje tymczasowy dostęp do uprawnień administratora w celu wykonania określonych zadań.

DAN

Źródła

PreviousPrompt Leaking NextHello Midjourney - Artur Kurasiński

Last updated 1 year ago

Was this helpful?