.HACK 2026

401호

16:20~17:10

Don't Rely on Luck: 지속 가능한 AI 레드티밍 파이프라인 구축하기

TECH

#AI #RedTeaming

박현준 I NAVER Service & Platform Security Security Engineer

네이버 시큐리팀에서 애플리케이션 보안과 AI 보안 업무를 맡고 있습니다. AI 기반 시스템에 내재된 취약점과 방어 메커니즘에 대해 관심이 많으며, AI Security와 Safety를 주제로 한 '프롬프트 제로(Prompt Zero)' 커뮤니티를 운영하고 있습니다.

AI 보안 실무에서는 여전히 LLM 모델(Model) 레드티밍과 AI 내장 애플리케이션(AI-Integrated App) 레드티밍이 명확히 구분되지 않은 채 혼용되는 경우가 많습니다. Jailbreak와 프롬프트 인젝션의 경계가 모호하고, 평가 대상과 공격 성공 기준(Success Criteria)이 불명확해 실제 보안 리스크를 과소 또는 과대평가하는 사례가 빈번합니다. 특히 RAG, 도구 호출(tool use), 에이전트 워크플로우가 결합되며 공격 표면이 확장되면서, 기존의 텍스트 기반 평가를 넘어 “시스템의 의도치 않은 행위”를 검증할 수 있는 표준화된 평가 체계가 필수적이 되었습니다.

본 발표는 기업 환경에서 모델과 애플리케이션을 명확히 분리하고, 일관된 기준으로 평가하기 위한 자동화 레드티밍 아키텍처를 제시합니다.

먼저 LLM 모델 레드티밍 파트에서는 PyRIT을 활용한 공격 오케스트레이션과 표준화된 실행 절차를 다룹니다. 자체 정립한 프롬프트 공격 Taxonomy를 소개하고, 이를 기반으로 데이터셋을 구축·운영한 경험을 공유합니다. 또한 평가 목적(정책 준수 검증, 유해 출력 강도 측정 등)에 따라 스코어링 체계를 어떻게 설계·적용해야 하는지 실제 예시로 설명합니다.

AI 애플리케이션 레드티밍 파트에서는 단순한 답변 품질을 넘어, 시스템에 영향을 미치는 행위(Behavior) 기반 평가 방법론을 제안합니다. 애플리케이션 특성에 맞춰 공격 시나리오를 스키마(spec)로 정의하고(컨텍스트·도구·데이터·성공조건), 공격 프롬프트를 규칙 기반으로 생성·적용하는 절차를 제시합니다. 또한 비인가 도구 호출, 권한 경계 침범, 데이터 유출 등 행위 결과를 기준으로 공격 성공을 판정하는 방법을 소개합니다.

마지막으로 두 평가를 통합 관리하는 프레임워크를 통해, 모델 업데이트나 프롬프트/가드레일 변경 시 보안 성능을 정량적으로 추적하는 회귀 검증(Regression Testing) 파이프라인을 제시합니다. 이를 통해 단발성 모의해킹을 넘어, 지속 가능하고 반복 가능한 레드티밍 운영 방법을 제공하고자 합니다.

‍

사이버 세상에서 ‘점’은 새로운 연결을 뜻합니다. 도메인, IP 주소, 네트워크에 연결된 기기들 ㅡ
이 모든 것이 하나의 ‘점’이 되어 디지털 세계를 구성하는 요소가 됩니다.
.HACK은 이런 ‘점’들을 지키는 해커와 보안 전문가가 모여 함께 배우고, 소통하고, 고민하는 공간입니다.
끊임없이 새로운 ‘점’이 생겨나는 디지털 세상에서 .HACK은 더 안전한 세상을 만드는 시작점이자,
화이트햇 해커들의 연결점이 되고자 합니다.

사이버 세상에서 ‘점’은 새로운 연결을 뜻합니다.
도메인, IP 주소, 네트워크에 연결된 기기들 ㅡ
이 모든 것이 하나의 ‘점’이 되어 디지털 세계를
구성하는 요소가 됩니다.
.HACK은 이런 ‘점’들을 지키는 해커와 보안 전문가가
모여 함께 배우고, 소통하고, 고민하는 공간입니다.
끊임없이 새로운 ‘점’이 생겨나는 디지털 세상에서
.HACK은 더 안전한 세상을 만드는 시작점이자,
화이트햇 해커들의 연결점이 되고자 합니다.

This is some text inside of a div block.