스위스 취리히 공과대학(ETH Zurich)의 두 연구원은 가장 널리 사용되는 LLM(대형 언어 모델)을 포함하여 인간의 피드백에 의존하는 모든 인공 지능(AI) 모델을 이론적으로 탈옥할 수 있는 방법을 개발했습니다. 탈옥은 장치나 시스템의 의도된 보안 보호를 우회하는 속어입니다. 스마트폰 및 스트리밍 장치와 같은 장치에 대한 소비자 제한을 우회하기 위한 공격이나 해커를 설명하는 데 가장 일반적으로 사용됩니다. 생성 AI 및 대규모 언어 모델의 세계에 특별히 적용될 때 탈옥은 모델이 유해하거나 원치 않거나 쓸모 없는 출력을 생성하지 못하도록 방지하는 하드 코딩된 보이지 않는 명령인 소위 "가드레일"을 우회하여 모델의 무제한 응답에 액세스하는 것을 의미합니다. . 연구원들은 RLHF를 성공적으로 활용하여 AI 모델(이 경우 LLama-2)의 가드레일을 우회하고 적대적인 프롬프트 없이 잠재적으로 유해한 출력을 생성할 수 있도록 했습니다.
모든 댓글