작가 : 인곤야마
인공지능의 발전은 놀랍습니다. 기본 알고리즘부터 ChatGPT 및 Copilot과 같은 언어 학습 모델(LLM)에 이르기까지 인공 지능은 기술 진화의 최전선에 있습니다. 이러한 모델이 사용자와 상호 작용하고 대량의 데이터와 단서를 처리함에 따라 데이터 개인 정보 보호 문제가 특히 중요해졌습니다. 이 중 아마존, 애플 등 대기업은 AI 상호작용으로 인한 데이터 유출 가능성을 방지하기 위해 ChatGPT 등 공개 API에 대한 직원의 접근을 제한했다. 또한, 일정 수준의 사용자 개인정보 보호를 의무화하는 관련 규정이 곧 도입될 것이라는 예측도 합리적입니다.
우리가 이러한 모델과 상호 작용하고, 질문하고, 공유하는 데이터가 비공개로 유지되도록 어떻게 보장할 수 있나요?
FHE(완전 동형 암호화) 소개
암호화 분야에서 완전동형암호는 획기적인 개념입니다. 그 매력은 독특한 능력에 있습니다. 먼저 데이터를 해독하지 않고도 암호화된 데이터에 대해 직접 계산을 수행할 수 있으므로 민감한 정보에 대한 개인적인 추론이 가능합니다.
이 기능을 사용하면 두 가지 중요한 사항이 보장됩니다. 즉, 처리 중에 데이터가 안전하게 유지되고 모델 지적 재산(IP)이 완벽하게 보호됩니다.
개인정보 추론 및 지적재산권 보호
요즘에는 "개인 정보 보호"와 "사용자 경험"이 물고기와 곰의 관계인 것처럼 보이며 둘 다 가질 수는 없습니다. 사람들은 종종 더 나은 사용자 경험을 위해 자신의 정보를 처리하는 제3자를 신뢰합니다. 우리는 이러한 제3자 회사가 보다 사적이지만 기능이 부족한 기본 솔루션 중에서 선택하거나 기능이 풍부한 서비스를 위해 개인정보 보호를 희생할 필요 없이 사용자 개인정보 보호와 고품질 사용자 서비스 간의 균형을 찾을 수 있다고 믿습니다.
완전 동형 암호화는 모델의 지적 재산을 완벽하게 보호하면서 비공개 추론을 가능하게 합니다. 암호화된 데이터에 대한 계산을 수행함으로써 프롬프트 단어의 완전한 기밀성을 보장하는 동시에 대규모 언어 모델의 지적 재산을 보호합니다.
기존 암호화 방법 VS FHE
기존 암호화 방식에서는 암호화된 형식의 데이터에 대해 의미 있는 작업을 수행하려면 먼저 해당 데이터를 해독해야 합니다. 그러나 암호를 해독하면 데이터의 일반 텍스트가 노출됩니다. 즉, 잠시 동안만 암호를 해독하더라도 데이터가 취약해지고 공격에 취약해집니다.
이와 대조적으로 완전 동형 암호화는 암호문에서 직접 작동할 수 있으므로 전체 작업 중에 민감한 정보가 "보이지 않는" 상태로 유지됩니다.
FHE가 중요한 이유
완전 동형 암호화의 중요성은 이론을 뛰어넘습니다. 데이터를 해독하지 않고도 데이터 처리를 수행할 수 있거나 민감한 환자 세부 정보에 액세스하지 않고도 의료 데이터베이스를 분석할 수 있는 클라우드 컴퓨팅 서비스를 상상해 보세요. 완전한 동형암호의 잠재적인 응용 분야는 안전한 투표 시스템과 암호화된 데이터베이스의 개인 검색을 포함하여 방대하고 다양합니다.
FHE의 수학적 기초
완전 동형 암호화의 중요성은 이론을 뛰어넘습니다. 데이터를 해독하지 않고도 데이터 처리를 수행할 수 있거나 민감한 환자 세부 정보에 액세스하지 않고도 의료 데이터베이스를 분석할 수 있는 클라우드 컴퓨팅 서비스를 상상해 보세요. 완전한 동형암호의 잠재적인 응용 분야는 안전한 투표 시스템과 암호화된 데이터베이스의 개인 검색을 포함하여 방대하고 다양합니다.
FHE의 수학적 기초
완전 동형 암호화는 양자 저항성 격자 암호화 기술인 학습 허용(LWE) 문제를 기반으로 합니다. LWE에서는 키를 보유하지 않는 한 데이터를 읽을 수 없도록 하기 위해 무작위 노이즈가 사용됩니다. 암호화된 데이터에 대해 산술 연산을 수행하는 것이 가능하지만 일반적으로 이로 인해 노이즈 수준이 높아집니다. 너무 많은 작업을 연속해서 수행하면 키를 보유한 사람을 포함하여 누구도 데이터를 읽을 수 없습니다. 이것이 부분동형암호(SHE)입니다.
부분 동형 암호화를 완전 동형 암호화로 변환하려면 노이즈 수준을 줄이는 작업이 필요합니다. 이 작업을 "부트스트래핑"이라고 하며, 많은 완전 동형 암호화 방식에서 부트스트래핑을 사용합니다. 이 기사에서는 완전 동형 암호화를 달성하기 위해 수학적 토러스의 대수적 구조를 사용하는 토러스(Torus FHE)의 완전 동형 암호화 방식에 중점을 둘 것입니다.
TFHE의 장점
각각의 완전 동형 암호화 방식에는 고유한 장점과 단점이 있지만 실제 시나리오에서는 현재 TFHE가 더 효율적으로 구현됩니다. TFHE의 또 다른 중요한 장점은 프로그래밍 가능한 부트스트래핑(PBS)입니다. 이는 일반적인 부트스트래핑 작업을 확장하여 기계 학습 분야에서 중요한 활성화 함수와 같은 단일 변수 함수의 계산을 포함합니다.
TFHE의 한 가지 단점은 계산에서 수행되는 각 산술 연산에는 PBS 연산이 필요한 반면, 다른 방식에서는 일부 연산을 부트스트랩 연산 간에 일괄 처리할 수 있다는 것입니다.
가정 및 근사치
완전 동형 암호화를 사용하여 LLM(대형 언어 모델) 추론에 필요한 시간을 추정하기 위해 다음과 같은 몇 가지 가정을 세워 평가합니다.
- 토큰당 필요한 산술 연산 수는 모델 매개변수 수의 약 1~2배입니다. 이는 하한값이며, 각 토큰은 전체 모델을 사용하므로 이 하한값이 실제 수요에 충분히 가깝다고 가정합니다.
- 대규모 언어 모델의 각 산술 연산은 TFHE의 산술 연산에 매핑될 수 있습니다. 이는 기본적으로 두 시나리오 모두에서 가변 유형 크기를 보여줍니다. 우리는 INT4 변수가 대규모 언어 모델에 충분하고 TFHE에 적합하다고 가정합니다.
- 대규모 언어 모델의 모든 산술 연산은 완전 동형 암호화의 산술 연산에 매핑되어야 합니다. 이는 암호화 없이는 모델의 일부를 실행할 수 없음을 의미합니다. Zama의 최근 블로그 게시물에서는 대부분의 모델이 암호화 없이 사용자에 의해 로컬로 실행되고 작은 부분(예: 단일 어텐션 헤드)만 모델의 기업 서버에서 동일하게 사용되는 이러한 가정 없이 FHE 추론을 고려합니다. - 최첨단 암호화 작업. 우리는 이 접근 방식이 실제로 모델의 지적 재산을 보호하지 못한다고 믿습니다. 이 경우 사용자는 여기에 표시된 것처럼 약간의 정확도 손실만으로 누락된 헤드를 실행하거나 누락된 부분에 대해 상대 실행을 수행할 수 있기 때문입니다. 원래 모델과 비슷한 결과를 얻기 위해 훈련합니다.
- TFHE의 각 산술 연산에는 PBS(Programmable Bootstrap)가 필요합니다. PBS는 TFHE 계산의 주요 병목 현상입니다.
- 현재 가장 발전된 TFHE 구현은 FPT입니다. 이는 35마이크로초마다 PBS를 계산하는 FPGA 구현입니다.
LLM 및 FHE의 과제
최근 기술의 발전으로 현재 최고의 완전 동형 암호화 구현은 단 35마이크로초 만에 산술 연산을 수행할 수 있습니다. 그러나 GPT2만큼 복잡한 모델을 고려할 때 단일 토큰에는 무려 15억 번의 작업이 필요합니다. 이는 토큰당 처리 시간이 약 52,000초임을 의미합니다.
더 나은 이해를 위해 언어 모델의 경우 토큰은 문자 또는 완전한 단어 등을 나타낼 수 있습니다. 응답 시간이 1~2주 정도 걸리는 언어 모델과 상호 작용한다고 상상해 보십시오! 이는 용납할 수 없는 일이며 이러한 지연은 실시간 통신이나 모델의 실제 적용에 적합하지 않습니다.
이는 현재의 완전 동형 암호화 기술 하에서 대규모 언어 모델에 대한 실시간 추론을 달성하는 것이 여전히 큰 과제임을 보여줍니다. 완전 동형 암호화는 데이터 보호에 있어서 매우 중요하지만 성능 제한으로 인해 높은 계산 집약도가 필요한 작업의 실제 시나리오에 적용하기 어려울 수 있습니다. 실시간 상호 작용 및 신속한 응답 요구 사항을 충족하려면 다른 보안 컴퓨팅 및 개인 정보 보호 솔루션을 모색해야 할 수도 있습니다.
잠재적인 솔루션
대규모 언어 모델에 완전 동형 암호화를 적용하려면 다음과 같은 로드맵이 가능합니다.
여러 머신을 사용하여 병렬 처리를 구현합니다.
잠재적인 솔루션
대규모 언어 모델에 완전 동형 암호화를 적용하려면 다음과 같은 로드맵이 가능합니다.
여러 머신을 사용하여 병렬 처리를 구현합니다.
- 52,000초/토큰부터 시작합니다.
- 10,000개의 병렬 머신을 배포하여 시간을 토큰당 5초로 줄였습니다. 대규모 언어 모델은 실제로 고도로 병렬화될 수 있으며 현재 추론은 일반적으로 수천 개 이상의 GPU 코어에서 병렬로 수행됩니다.
고급 하드웨어로 전환:
- 개선됨 - 5초/토큰부터 시작
- GPU나 ASIC으로 전환하면 토큰당 0.1초의 처리 시간을 달성할 수 있습니다. GPU는 속도 면에서 더 직접적인 이득을 제공할 수 있지만, 이전 블로그에서 언급한 ZPU와 같이 ASIC은 속도와 전력 소비 측면에서 더 높은 이득을 제공할 수 있습니다.
그림에서 볼 수 있듯이, 기존 데이터 가속 기술을 이용한 완전 동형암호를 통해 대규모 언어 모델의 사적 추론을 달성할 수 있습니다. 이는 충분히 큰 데이터 센터에 대한 대규모이지만 실행 가능한 초기 투자로 뒷받침될 수 있습니다. 그러나 이러한 가능성은 여전히 매우 희박하며 Copilot(120억 매개변수) 또는 GPT3(1750억 매개변수)와 같은 대규모 대규모 언어 모델의 경우 여전히 메워야 할 격차가 있습니다.
Copilot의 경우 일반적으로 인간 언어보다 더 간결한 코드 출력을 생성하므로 더 작은 토큰 처리량으로도 충분합니다. 처리량 요구 사항을 8배로 줄이면 Copilot도 실현 가능한 목표를 달성할 수 있습니다.
이 마지막 격차는 대규모 병렬화, 더 나은 구현, 완전한 동형 암호화로 부트스트랩된 더 효율적인 알고리즘의 조합으로 메워질 수 있습니다. 인곤야마에서는 알고리즘이 이러한 격차를 해소하는 중요한 부분이라고 믿으며, 현재 우리 팀은 관련 알고리즘의 연구 개발에 집중하고 있습니다.
요약하다
완전 동형 암호화의 보안과 대규모 언어 모델의 계산 능력이 결합되면 인공 지능 상호 작용을 재정의하여 효율성과 개인 정보 보호를 모두 보장할 수 있습니다. 몇 가지 어려움이 있지만 지속적인 연구와 혁신을 통해 ChatGPT와 같은 AI 모델과의 상호 작용이 즉각적이고 비공개인 미래를 달성할 수 있습니다. 이를 통해 사용자에게 보다 효율적이고 안전한 경험을 제공하고 다양한 분야에서 인공지능 기술의 광범위한 적용을 촉진할 것입니다.
모든 댓글