AI가 창작한 이미지, 그 뿌리는 어디에서 왔는가?
최근 Midjourney, DALL·E, Stable Diffusion 같은 AI 이미지 생성 도구의 인기가 급격히 높아지고 있다.
사용자는 단지 몇 개의 단어나 문장을 입력함으로써 놀라운 수준의 창의적 이미지를 즉시 만들어낼 수 있다.
광고, 출판, 블로그, SNS 콘텐츠까지 다양한 곳에서 이러한 AI 이미지가 실제로 사용되고 있으며,
이미지를 생성하는 주체가 ‘사람’이 아니라 ‘AI’로 바뀌는 시대가 현실이 되었다.
그러나 이 편리함의 이면에는 중요한 법적 이슈가 도사리고 있다.
“AI가 이미지를 만들기 위해 학습한 원본 이미지들은 도대체 누구의 것인가?”
그리고 더 중요한 질문은,
“그 원본 이미지들의 저작권은 어떻게 처리되어야 하는가?”이다.
이 글에서는 AI 이미지 생성의 과정과 데이터셋의 구성,
그리고 원본 이미지의 저작권 침해 여부에 대한 쟁점을 정리해 본다.
AI 이미지 생성의 원리
AI가 이미지를 ‘창조’하기 위해서는 먼저 학습(training)이 필요하다.
이 학습에는 수천만 장 이상의 이미지가 사용되며, AI는 그 이미지들의 색상, 구도, 질감, 문맥 등을 분석한다.
이러한 학습 과정에서 사용되는 데이터는 ‘훈련 데이터셋(Training Dataset)’이라고 부른다.
예를 들어 다음과 같은 유형의 이미지가 포함될 수 있다.
- 인터넷에 공개된 아트웍, 사진, 일러스트
- 위키미디어, 플리커 등에서 수집된 이미지
- 저작권 만료 콘텐츠(퍼블릭 도메인 이미지)
- 라이선스 없이 무단 크롤링된 이미지들
AI는 단순히 이미지를 ‘복사’하지는 않지만,
방대한 양의 이미지 데이터를 학습하여, 그 스타일과 구성을 내면화한 후 새로운 이미지를 생성한다.
문제는 바로 이 지점에서 시작된다.
무단으로 수집된 이미지가 데이터셋에 포함되어 있다면, 해당 AI의 생성물은 과연 저작권적으로 자유로운가?
AI가 학습한 데이터셋, 공개되어 있지 않다
대부분의 이미지 생성 AI는 학습에 사용된 데이터셋을 비공개로 한다.
이유는 다양하지만, 그 중 하나는 법적 분쟁을 피하기 위해서다.
- DALL·E(OpenAI): 데이터셋 구성을 구체적으로 공개하지 않음
- Midjourney: 학습 방식 자체가 비공개
- Stable Diffusion: LAION-5B라는 대규모 공개 이미지 데이터셋을 사용한다고 밝힘
Stable Diffusion이 사용한 LAION-5B 데이터셋은
공개 웹사이트에서 크롤링한 이미지 50억 장으로 구성되어 있으며,
이 중에는 상업적으로 보호받는 이미지, 브랜드 로고, 아티스트 작품, 심지어 뉴스 이미지도 포함되어 있는 것으로 알려져 있다.
이러한 상황에서 “공개되어 있다는 이유만으로 저작권이 없는 것은 아니다”라는 점이 핵심이다.
크롤링된 이미지 = 저작권 자유? 큰 오해
많은 사람들이 착각하는 부분이 있다.
“인터넷에 있는 이미지는 공공재이므로 AI가 학습해도 문제없다”는 주장이다.
그러나 이는 법적으로 전혀 타당하지 않다.
저작권법상 보호받는 콘텐츠는 다음과 같은 요건만 갖추면 된다.
- 인간의 창작성이 반영되어 있을 것
- 고정된 형태(파일, 문서 등)로 표현되어 있을 것
- 공개 여부와 상관없이 ‘저작물’로서 인식될 수 있을 것
따라서 블로그에 올린 일러스트, 인스타그램에 올린 사진, 디지털 아티스트의 작품 등은
인터넷에 떠돌고 있더라도 엄연한 저작권 보호 대상이다.
AI가 이를 무단으로 수집하여 학습 데이터로 사용한다면,
직접적으로 해당 이미지 파일을 복제하지 않더라도,
‘무단 이용에 의한 2차적 저작물 생성’으로 해석될 수 있는 여지가 있다.
실제로 제기된 소송 사례
사례 1: Getty Images vs Stability AI (Stable Diffusion)
2023년, 세계적인 이미지 라이브러리 업체인 Getty Images는 Stability AI를 상대로 소송을 제기했다.
이유는 Stability AI가 Getty의 이미지 수십만 장을 무단으로 크롤링하여 학습 데이터로 사용했다는 주장이다.
소장 내용에 따르면, Stable Diffusion은 Getty의 워터마크가 박힌 이미지까지 학습에 사용했으며,
그 결과 생성된 이미지에서 워터마크가 흐릿하게 나타나는 경우도 있었다.
Getty는 이를 명백한 저작권 및 상표권 침해로 간주하고,
Stability AI에 수억 달러 규모의 손해배상을 청구했다.
사례 2: 미국 작가 협회, OpenAI와 Midjourney 집단 소송
동시에 미국 작가 협회(Authors Guild)와 일러스트 작가들은
AI 생성 이미지들이 자신들의 스타일을 모방하고, 특정 작가 이름을 프롬프트에 넣으면 유사한 이미지가 생성된다며
AI 플랫폼들을 상대로 소송을 제기했다.
이 사건에서 핵심 쟁점은 다음과 같다.
- “스타일”도 저작권 보호 대상인가?
- AI의 학습 과정이 ‘공정 이용(Fair Use)’에 해당하는가?
- AI가 만든 이미지가 원본과 유사할 경우, 법적 책임은 누구에게 있는가?
이러한 사례는 향후 AI 학습과 저작권 해석의 중요한 기준이 될 가능성이 높다.
‘공정 이용’이라는 방패는 어디까지 유효한가?
AI 기업들은 자신들의 이미지 학습이 ‘공정 이용(Fair Use)’에 해당한다고 주장한다.
공정 이용이란, 교육, 연구, 비평 등 사회적 공익 목적을 위한 제한적 이용을 허용하는 개념이다.
하지만 다음과 같은 조건이 충족되지 않으면 공정 이용은 인정되지 않는다.
- 이용 목적이 비상업적이고, 교육적이며 공익적일 것
- 원작의 가치나 시장성에 손해를 주지 않을 것
- 사용된 비율이나 범위가 전체 저작물에 비해 적절할 것
- 원본과 변형된 콘텐츠의 차이가 명확할 것
상업용 AI 이미지 생성기의 경우, 대부분 유료이며, 생성물이 직접적으로 수익을 창출할 수 있으므로
공정 이용 주장에 한계가 있다는 지적이 많다.
국내 저작권법은 어떻게 적용될까?
한국 저작권법 역시 AI의 학습 데이터를 직접적으로 규제하는 조항은 없다.
하지만 다음과 같은 조항을 통해 법적 대응이 가능할 수 있다.
- 제7조: 저작물의 정의
- 제5장: 2차적 저작물의 보호
- 제6장: 저작인격권 및 명예훼손에 대한 보호
특히 AI가 학습한 이미지가 특정 작가의 스타일, 구도, 표현방식을 고스란히 반영해
원작자 또는 대중이 오인할 수 있는 수준이라면,
저작권 침해뿐만 아니라 저작인격권(성명표시권, 동일성유지권) 침해 소지도 발생할 수 있다.
AI는 복사하지 않았지만, 책임은 피할 수 없다
AI는 ‘창의적’으로 이미지를 만든다.
그러나 그 창의성은 어디까지나 누군가의 창작물을 기반으로 학습된 결과이다.
단지 이미지 파일을 복사하지 않았다고 해서,
법적 책임이나 윤리적 의무에서 벗어날 수는 없다.
이미지를 만드는 과정뿐 아니라,
그 이미지가 만들어지기까지 사용된 데이터의 출처와 권리 관계를 함께 고려하는 것이
AI 시대의 새로운 기준이 되어야 한다.
앞으로 AI 이미지 생성 기술이 발전할수록,
원본 데이터셋의 투명성, 학습의 정당성, 생성물의 귀속 문제는 더욱 첨예한 이슈로 떠오를 것이다.
그렇기에 지금 필요한 것은 기술의 속도에 앞서가는
법적 기준과 창작자 보호의 틀을 마련하는 일이다.
'AI 저작권' 카테고리의 다른 글
| AI로 만든 뉴스레터, 저작권 분쟁 가능성은? (0) | 2025.12.10 |
|---|---|
| AI 음성으로 만든 팟캐스트, 성우권 침해일까? (0) | 2025.12.09 |
| AI 기술로 복원한 고전 영화·음원의 저작권 문제 (0) | 2025.12.06 |
| AI 글쓰기 도구로 쓴 자서전, 법적으로 내 이야기일까? (0) | 2025.12.05 |
| AI가 만든 짤방, 밈(meme)의 저작권 이슈 (0) | 2025.12.05 |