디퓨전 모델은 지금의 AI 이미지 생성 기술을 대표하지만, 근본적으로 느리고 비효율적인 구조를 안고 있다….
디퓨전 모델은 지금의 AI 이미지 생성 기술을 대표하지만, 근본적으로 느리고 비효율적인 구조를 안고 있다. 쉽게 말해 ‘완성된 그림을 거꾸로 되짚는 방식’이기 때문이다. 먼저 이미지를 완전히 노이즈로 망가뜨리고, 그걸 수백 번의 단계를 거쳐 다시 복원해 나가는 식이다. 결과는 아름답지만, 과정은 엄청난 계산량과 전력 소모를 요구한다. 마치 1000조각짜리 퍼즐을 일부러 부수는 과정에서 그 그림에 대한 정보를 얻은 뒤 다시 그 조각으로 열심히 비슷한 모양을 만드는 것과 비슷하다. 지금은 이게 유일한 방법이니 그러려니 하지만 사실 중간 샘플링 단계에서 만들어지는 수많은 이미지는 실제로 쓰이지 않고 버려지므로, 그만큼의 에너지가 낭비된다. 이 방식의 가장 큰 한계는 속도다. 초고성능 GPU를 써도 한 장을 그리는 데 수 초에서 수십 초가 걸린다. 전력 효율도 나쁘다. 한 번의 생성마다 꽤 많은 전력이 쓰인다. 스마트폰이나 노트북에서 같은 품질의 그림을 실시간으로 얻는 건 거의 불가능하다. 그래서 최근에는 ‘더 짧은 길’을 찾는 시도가 활발하다. 대표적인 게 ‘레이턴트 디퓨전(Latent Diffusion)’이다. 이미지를 직접 다루지 않고, 압축된 ‘요약 공간(잠재 공간)’에서 생성해 계산량을 줄인다. 쉽게 말해 압축 버전에서 대충 그린 다음에 정상 화질에서 개선하는 방식이다. 또 다른 흐름은 ‘GAN(적대적 생성망)’과의 결합이다. GAN은 머신러닝을 통해 그림/사진 그리는 법을 훈련한 모델이다. 디퓨전과는 개념이 다르다. GAN은 한 번에 이미지를 그려내지만 품질이 불안정하고, 디퓨전은 안정적이지만 느리다. 둘의 장점을 섞어 속도와 품질을 동시에 노리는 하이브리드 모델이 등장하고 있다. 최근엔 아예 발상을 바꾼 ‘열역학 기반’ 접근도 나온다. 노이즈를 거꾸로 되짚는 대신, 에너지가 가장 안정된 ‘자연스러운 상태’를 직접 찾아내는 방식이다. 마치 물이 흘러내려 결국 고요한 연못에 이르듯, AI가 스스로 가장 균형 잡힌 그림 상태를 찾도록 유도한다. 이런 방식은 계산 단계를 크게 줄이고, 물리 법칙에 가까운 효율을 목표로 한다. 마치 미로 퍼즐을 푸는데 확률적으로 가장 답일 가능성이 높은 곳만 가는 것과 비슷하다고 할 수 있다. 디퓨전은 갈 수 있는 모든 길을 동시에 시도하며 그 중 더 나은 길을 선택하는 방식으로 볼 수 있다. 이번에 Extropic이라는 회사에서 새로 내놓은 하드웨어와 소프트웨어가 약속한대로라면 100분의 1, 1000분의 1 로 처리 시간과 에너지 사용을 줄일 수 있다. 하드웨어 차원에서 에너지 기반 모델을 직접 샘플링해, 확률 분포 자체를 이용해 이미지를 생성한다. 중간 샘플링 같은 게 없다. 두고봐야겠지만 사실이면 AI 기술은 다시 한번 도약을 앞두고 있다.


Leave a Reply