차세대 멀티모달 AI 기반 딥페이크 탐지 시스템
생체신호 분석과 AI 협업으로 진실을 밝힙니다
TruthLens만의 차별화된 딥페이크 탐지 기술
rPPG(Remote Photoplethysmography) 기술로 얼굴 피부색의 미세한 변화를 감지하여 심박수를 원격으로 측정합니다. 진짜 영상은 SNR ≈ -1.97dB, 딥페이크는 ≈ -3.35dB로 명확한 차이를 보입니다. 눈 깜빡임 패턴 분석(정상: 15-20회/분, 간격 2-10초)과 결합하여 생리학적으로 불가능한 패턴을 탐지합니다.
LangGraph 워크플로우 오케스트레이션과 CrewAI 전문가 팀을 활용한 역할 기반 협업 분석 시스템입니다. Visual Agent, Audio Agent, Bio Agent가 각자의 전문 영역에서 독립적으로 분석을 수행한 후, 가중 평균(Visual 35% + Audio 25% + Bio 40%)으로 융합하여 최종 판정을 내립니다.
Ollama 기반 로컬 LLM(llama3.2:3b-instruct)과 VLM(llama3.2-vision:latest)을 사용하여 모든 AI 추론을 로컬 환경에서 수행합니다. 분석 대상 미디어나 결과 데이터가 외부 서버로 전송되지 않아 기업 및 정부 기관의 민감한 데이터 분석에 안전하게 사용할 수 있습니다.
생성적 적대 신경망(GAN)은 특정 주파수 대역에서 고유한 패턴을 남깁니다. 2D FFT(Fast Fourier Transform)를 사용하여 주파수 도메인에서 스펙트럼 이상을 탐지하고, DCT(Discrete Cosine Transform) 계수 히스토그램 분석으로 이중 압축 및 조작된 영역을 식별합니다.
MFCC(Mel-Frequency Cepstral Coefficients) 기반으로 합성 음성을 식별합니다. TTS 및 음성 복제 기술은 더 균일한 MFCC 특성을 보이며, 표준편차 < 5.0이면 의심스러운 것으로 판단합니다. Librosa를 활용한 ZCR(Zero Crossing Rate) 변동 분석으로 추가 검증을 수행합니다.
MediaPipe를 사용하여 입술 랜드마크를 추출하고, 오디오 에너지와의 상관관계를 분석합니다. 정상 영상은 입술 움직임과 오디오 에너지가 높은 상관관계(> 0.7)를 보이지만, 딥페이크는 A/V 동기화 이상으로 낮은 상관관계를 나타냅니다.
모든 판정에 대해 LLM 기반 상세 설명 및 증거 체인을 자동으로 생성합니다. 각 분석 모듈의 결과를 종합하여 "왜 이 영상이 딥페이크인지" 또는 "왜 진짜인지"에 대한 논리적이고 이해하기 쉬운 설명을 제공하여 의사결정을 지원합니다.
FastAPI 기반 비동기 아키텍처로 여러 미디어 파일을 동시에 처리할 수 있습니다. 배치 처리 지원으로 대량의 영상을 효율적으로 분석하며, 프레임 샘플링 전략 개선으로 메모리 사용량을 40% 감소시켜 빠른 분석 속도를 제공합니다.
Resemblyzer를 사용하여 화자 임베딩을 추출하고, 영상 전체에 걸쳐 화자의 일관성을 검증합니다. 음성 스왑이나 여러 화자의 음성이 섞인 경우를 탐지하며, 코사인 유사도 < 0.8이면 화자 변경 가능성이 높은 것으로 판단합니다.
비디오, 오디오, 이미지를 단일 파이프라인에서 통합 분석합니다. 각 모달리티의 강점을 활용하여 88.4%의 높은 정확도를 달성하며, 10개 이상의 포맷(MP4, AVI, MOV, WAV, MP3, JPG, PNG 등)을 지원하여 다양한 미디어 소스에서 딥페이크를 탐지할 수 있습니다.
최첨단 AI와 생체신호 분석의 융합
딥페이크는 생리학적 신호를 완벽하게 재현할 수 없습니다. TruthLens는 이 약점을 활용합니다.
얼굴 피부색 미세 변화로 심박수를 측정합니다. 진짜 영상은 SNR ≈ -1.97dB, 딥페이크는 ≈ -3.35dB
정상 범위: 15-20회/분, 간격 2-10초. 딥페이크는 깜빡임이 없거나 기계적으로 규칙적입니다.
주파수 도메인 분석과 압축 아티팩트 탐지로 GAN 생성 이미지를 식별합니다.
GAN은 특정 주파수 대역에서 고유한 패턴을 남깁니다. 2D FFT로 스펙트럼 이상을 탐지합니다.
이중 압축 탐지와 DCT 계수 히스토그램 분석으로 조작된 영역을 찾아냅니다.
MFCC 기반 합성 음성 탐지와 립싱크 검증으로 오디오 딥페이크를 식별합니다.
TTS/음성 복제는 더 균일한 MFCC 특성을 보입니다. 표준편차 < 5.0이면 의심스러움.
입술 움직임과 오디오 에너지의 상관관계를 분석하여 A/V 동기화 이상을 탐지합니다.
LangGraph 기반 멀티에이전트 협업
프레임 추출, 오디오 분리, 메타데이터 수집
Visual, Audio, Bio 에이전트 동시 실행
가중 평균: Visual(35%) + Audio(25%) + Bio(40%)
LLM 기반 증거 체인 및 설명 생성
REAL / UNCERTAIN / FAKE
TruthLens의 강력한 딥페이크 탐지 기능을 직접 경험하세요.
Gradio UI와 FastAPI를 통해 실시간으로 테스트할 수 있습니다.