스위스 연구원들이 대규모 언어 모델을 해독하는 방법을 개발했습니다.

스위스 취리히 공과대학(ETH Zurich)의 두 연구원은 가장 널리 사용되는 LLM(대형 언어 모델)을 포함하여 인간의 피드백에 의존하는 모든 인공 지능(AI) 모델을 이론적으로 탈옥할 수 있는 방법을 개발했습니다. 탈옥은 장치나 시스템의 의도된 보안 보호를 우회하는 속어입니다. 스마트폰 및 스트리밍 장치와 같은 장치에 대한 소비자 제한을 우회하기 위한 공격이나 해커를 설명하는 데 가장 일반적으로 사용됩니다. 생성 AI 및 대규모 언어 모델의 세계에 특별히 적용될 때 탈옥은 모델이 유해하거나 원치 않거나 쓸모 없는 출력을 생성하지 못하도록 방지하는 하드 코딩된 보이지 않는 명령인 소위 "가드레일"을 우회하여 모델의 무제한 응답에 액세스하는 것을 의미합니다. . 연구원들은 RLHF를 성공적으로 활용하여 AI 모델(이 경우 LLama-2)의 가드레일을 우회하고 적대적인 프롬프트 없이 잠재적으로 유해한 출력을 생성할 수 있도록 했습니다.

Recently Searched

Hot Coins

Trending

매일 필독

돌아오신것을 환영합니다

계정 가입

email 로 로그인

email 로 가입

수신함을 확인하세요

스위스 연구원들이 대규모 언어 모델을 해독하는 방법을 개발했습니다.

모든 댓글

Recommended for you

트럼프 상무장관의 회사가 테더 주식을 인수하고 20억 달러 규모의 BTC 대출 프로그램을 시작할 예정입니다.

빔체인의 9가지 주요 업그레이드를 한 글로 이해해보세요

솔라나 ETF 승인 전망: "거의 절망적"부터 "2025년 말 이전에 예상됨"까지, 현재의 과제는 무엇입니까?

수년간의 실무 요약: Shenyu는 자신의 "4개 지갑" 투자 관리 규칙을 자세히 설명합니다.

케빈 월시(Kevin Walsh), 크립토(Crypto)와 그 사람의 관계는 무엇인가요?

Pantera 파트너: 선거 후 암호화폐 시장에서 우리는 무엇을 기대할 수 있습니까?

마이크로소프트(Microsoft)는 현지 중소기업 기업의 인공지능 개발을 지원하기 위해 남아프리카공화국에 7천만 달러를 투자할 예정입니다.

Hui Chingyu: 홍콩은 금융 시장에서 AI 적용에 관한 정책 선언을 발표하고 개방적이고 포용적인 태도를 유지할 계획입니다.

월스트리트저널: 애플이 데이터센터 AI 칩을 개발 중

사우디아라비아, AI 분야에 400억 달러 투자 계획

매일 필독

솔라나 ETF 승인 전망: "거의 절망적"부터 "2025년 말 이전에 예상됨"까지, 현재의 과제는 무엇입니까?

케빈 월시(Kevin Walsh), 크립토(Crypto)와 그 사람의 관계는 무엇인가요?

100,000 테스트: 비트코인은 언제 성공적으로 돌파할 수 있을까요?

강력한 팔을 가진 SEC 의장 게리 겐슬러(Gary Gensler)는 트럼프 대통령 취임과 함께 마침내 사임했다.

SOL이 새로운 최고점에 도달했습니다. "King of Meme Chain"이 세 번째 현물 ETF가 될 수 있을까요?

게리 양: 트럼프가 당선된 이후 상황이 극적으로 바뀌었습니다.

대중적인 활동

Delysium $AGI & AI Private Yacht Party

공유하기