신뢰할 수 있는 AI 생태계 구축: LLM 취약점 분석과 경량화된 guard model 개발
이이삭TheoriAIOS팀 ResearcherTheori AIOS팀의 researcher입니다. Theori에서 Large Language Model(LLM)을 활용한 취약점 탐색 또는 LLM내부에 존재하는 취약점을 주로 연구하고있습니다.
ChatGPT-3.5의 등장으로 AI 기술은 연구 영역을 넘어 일상으로 확장되었고, 사용자 수가 가파르게 증가했습니다. AI Safety는 AI 시스템의 신뢰성과 통제 가능성을 확보하여 사회질서를 유지하고 AI로 인한 잠재적 위험을 최소화하는 것을 목표로 하는 분야입니다.
주요 AI 리스크는 미래의 인력 대체로 인한 노동가치 하락, 인간 통제를 벗어난 자율적 AI 시스템부터 현재 악용되는 가짜뉴스 생성, 사이버 공격, 사회적 갈등 조장, 지적재산권 침해 등이 있습니다. 이러한 위협에 선제적으로 대응하기 위해 국가 연구기관, 국제 협력 체계, 그리고 기업 주도 이니셔티브가 적극적으로 추진되고 있습니다.
본 세션에서는 AI Safety 분야의 핵심 리스크와 글로벌 대응 동향을 소개합니다. 특히 티오리 연구팀이 진행한 LLM 내부 취약점 분석 방법과 함께 AI 시스템의 취약점을 해결하기 위해 개발된 보호시스템 PRISM을 소개하며, 직면한 문제와 해결방안을 설명합니다.
우리는 학습데이터 오염, 연구자의 편향된 instruction tuning 등 LLM 개발시 발생할 수 있는 문제들로 비롯되는 LLM 내부 취약점을 분석하였으며, 이중 LLM 내부의 편향을 이용하하는 취약점인 Biasjailbreak 기법과 그 대응 방안을 제시합니다. ɑprism의 보호 로직인 ɑprism GUARD는 LLM에 입력되는 prompt를 분석하고, 분석한 데이터를 바탕으로 공격에 대한 선제적 방어를 하는 guard 로직으로, LLM 기반 데이터 증강 기술을 통해 다국어 환경에서도 효과적인 jailbreak 방어 능력을 제공합니다. 기존 guard model이 높은 컴퓨팅 자원 요구로 실용화에 제약이 있었던 반면, ɑprism은 경량화와 성능 최적화로 이러한 한계를 극복했습니다. 이로써 기업뿐 아니라 개인 사용자에게도 고급 AI 보안 기능을 제공하여 안전한 AI 생태계 구축에 기여합니다.