Cinamon Inc. · Motion Stylization

🎨 Motion Stylization

프로젝트 기간: 2024. 09 - 2025. 02

Tech stack

PyTorch PyTorch Lightning Streamlit GitHub

콘텐츠 모션의 의미를 유지한 채 원하는 스타일을 적용하는 ==motion stylization 모델==을 개발하고 데모 페이지를 만들어 배포했습니다. 콘텐츠와 스타일 모션 데이터가 unpaired인 제약에서도 동작하기 위해, ==Transformer VAE== 기반 PoC를 시작으로 ==mixed attention== DDIM 방식으로 고도화했습니다.

Media

1 / 2

동일한 동작을 다른 스타일로 변환한 결과를 확인할 수 있습니다.

📍 업무 수행 내용

- AI 기반 모션 콘텐츠 ==기능 기획 의사결정 근거==를 만들기 위해, 스타일 변환 기능의 구현 가능성과 내부 사용자 경험을 검증하는 프로젝트를 진행했습니다. - =='스타일이 잘 적용됨'을 어떻게 수치적으로 정의할 것인지==가 이 프로젝트의 핵심 과제였습니다. - 모션에서 스타일 정보를 추출하는 encoder를 정의하는 것은 대규모 paired dataset이 없어 일반화를 보장할 수 없었습니다. - 따라서, 이를 명시적인 loss function으로 정의하는 대신 pretrained model의 prior knowledge와 Attention 연산을 활용한 스타일 적용 방법을 제안했습니다. - PoC : ==2-stage latent VAE== 모델로 motion content encoder와 style generator를 설계했습니다. - Stage 1 : motion-only VAE 학습 - Stage 2 : content encoder와 style generator 동시 학습

Stage 2 상세 로직

flowchart LR subgraph Stage2["Stage 2: Content Encoder + Style Generator"] x["Content Motion x"] --> E["Frozen Stage-1 VAE Encoder"] E --> z["Motion Latent z"] z --> CE["Content Encoder"] CE --> zc["Style-invariant Content Latent z_c"] y["Target Style Label"] --> CLIP["CLIP Text Encoder"] CLIP --> s["Style Embedding s"] subgraph SG["Style Generator"] zc --> SA["Content-aware Attention"] s --> TA["Style-conditioned Tokens / Attention"] TA --> F["Latent Fusion Transformer"] SA --> F end F --> zhat["Stylized Latent z_hat"] zhat --> D["Frozen Stage-1 VAE Decoder"] D --> xt["Stylized Motion x_hat"] end

- 고도화 : Diffusion model의 ==샘플링 전략을 활용==하는 motion style transfer로 확장했습니다.

flowchart LR content["Content Motion"] --> inversion["DDIM Inversion
+ Cached Decoder States"] styleChoice["User Style Selection"] --> match["Style Candidate"] match --> styleMotion["Style Motion Selection"] styleMotion --> sampling["Mixed-Attention Sampling"] inversion --> sampling sampling --> output["Stylized Motion"]

- Prior knowledge를 이용하더라도, PoC처럼 encoder와 generator를 동시에 학습하는 경우 ==학습 안정성==이 떨어졌습니다. - Diffusion model의 prior knowledge를 이용하되, ==샘플링 과정==에서 스타일을 적용하는 전략을 제안했습니다. - Attention 연산을 변형해 콘텐츠 모션과 스타일 모션의 정보를 명시적으로 교환하는 ==Mixed Attention== 을 구현했습니다.

Mixed attention 상세 로직

flowchart TD X["Current mixed sample at timestep t"] --> D{"Is decoder layer i the first(index=0) layer?"} D -->|"Yes"| N["Use current state only
tgt = current output
memory = current state"] D -->|"No, mid DDIM steps"| L{"Layer idx"} L -->|"layer idx = 1..5"| S1["Style-guided cross attention
tgt = current output
memory = cached style kv_l(t)"] L -->|"layer idx = 6..7"| S2["Content-style mixed attention
tgt = w * cached content q_l(t)
+ (1-w) * current output
memory = cached style kv_l(t)"] N --> T["TransformerDecoderLayer(tgt, memory)"] S1 --> T S2 --> T T --> Y["Next decoder layer / next DDIM step"]

- ==유저 친화적인 입력/출력 구조==를 설계해 모델 사용 접근성을 높였습니다. - 사용자가 입력한 모션에 따라 추론 품질이 달라질 수 있는 edge case를 발견했습니다. - 예) 콘텐츠 모션과 스타일 모션의 걷기와 눕기처럼 크게 다르면 global translation과 velocity 차이로 아티팩트가 발생할 수 있음 - 라벨 형태로 스타일을 선택하는 간단한 입력 구조를 유지해 사용자 편의성을 높였습니다. - 모델 내부적으로는 스타일 모션의 kinematic feature를 캐싱하고, 요청이 들어오면 입력 모션과 유사도 높은 스타일 모션을 선택해 사용합니다.