AI 보안 실무에서는 여전히 LLM 모델(Model) 레드티밍과 AI 내장 애플리케이션(AI-Integrated App) 레드티밍이
명확히 구분되지 않은 채 혼용되는 경우가 많습니다. Jailbreak와 프롬프트 인젝션의 경계가 모호하고,
평가 대상과 공격 성공 기준(Success Criteria)이 불명확해 실제 보안 리스크를 과소 또는 과대평가하는 사례가 빈번합니다.
특히 RAG, 도구 호출(tool use), 에이전트 워크플로우가 결합되며 공격 표면이 확장되면서, 기존의 텍스트 기반 평가를 넘어
“시스템의 의도치 않은 행위”를 검증할 수 있는 표준화된 평가 체계가 필수적이 되었습니다.
본 발표는 기업 환경에서 모델과 애플리케이션을 명확히 분리하고, 일관된 기준으로 평가하기 위한 자동화 레드티밍 아키텍처를 제시합니다.
먼저 LLM 모델 레드티밍 파트에서는 PyRIT을 활용한 공격 오케스트레이션과 표준화된 실행 절차를 다룹니다.
자체 정립한 프롬프트 공격 Taxonomy를 소개하고, 이를 기반으로 데이터셋을 구축·운영한 경험을 공유합니다.
또한 평가 목적(정책 준수 검증, 유해 출력 강도 측정 등)에 따라 스코어링 체계를 어떻게 설계·적용해야 하는지 실제 예시로 설명합니다.
AI 애플리케이션 레드티밍 파트에서는 단순한 답변 품질을 넘어, 시스템에 영향을 미치는 행위(Behavior) 기반 평가 방법론을 제안합니다.
애플리케이션 특성에 맞춰 공격 시나리오를 스키마(spec)로 정의하고(컨텍스트·도구·데이터·성공조건), 공격 프롬프트를 규칙 기반으로
생성·적용하는 절차를 제시합니다. 또한 비인가 도구 호출, 권한 경계 침범, 데이터 유출 등 행위 결과를 기준으로 공격 성공을 판정하는 방법을 소개합니다.
마지막으로 두 평가를 통합 관리하는 프레임워크를 통해, 모델 업데이트나 프롬프트/가드레일 변경 시 보안 성능을 정량적으로 추적하는
회귀 검증(Regression Testing) 파이프라인을 제시합니다.
이를 통해 단발성 모의해킹을 넘어, 지속 가능하고 반복 가능한 레드티밍 운영 방법을 제공하고자 합니다.