본문 바로가기

AI 저작권

AI 학습에 무단 사용된 콘텐츠, 보상 가능한가?

AI가 배우는 콘텐츠는 공짜여도 괜찮을까?

 

AI 기술은 놀랍도록 빠르게 발전하고 있다. 이제 AI는 인간이 만든 수억 개의 문장, 이미지, 음원, 영상 등을 학습해 마치 스스로 창작한 것처럼 보이는 결과물을 만들어낸다. ChatGPT는 웹에서 수집한 글을 기반으로 답변을 생성하고, Midjourney는 인터넷상의 그림 스타일을 반영해 이미지를 만든다.

 

하지만 이 기술의 기반에는 무단으로 수집된 창작물들이 존재한다.

문제는 바로 여기서 출발한다. 누군가의 글, 그림, 음악이 본인의 허락 없이 AI 학습에 사용되었다면, 그 사람은 이에 대해 보상받을 수 있는가? 창작자는 자신의 콘텐츠가 어디에, 어떻게, 무엇을 위해 사용되는지 알지 못한 채 이미 대규모 AI 모델에 흡수되었을 가능성이 크다.

 

AI 학습과 무단 크롤링의 법적 쟁점, 저작권자의 손해 입증 가능성, 국내외 보상 판례 및 집단소송 현황, 창작자가 지금 할 수 있는 실질적인 대응책 등 관련해 크롤링 기반 학습 데이터의 저작권 문제와 창작자의 권리 구조에 대해 알아보겠습니다.

 

 

AI 학습에 무단 사용된 콘텐츠 보상 여부

 

AI는 어떻게 데이터를 학습하는가?

대부분의 생성형 AI는 인터넷에 공개된 방대한 데이터를 수집해 학습한다.

이때 사용하는 방식은 다음과 같다.

● 웹 크롤링(Crawling)

  • 웹사이트에 자동 접근하여 텍스트, 이미지, 링크 등을 수집
  • 뉴스, 블로그, 포럼, 백과사전 등 공공 웹에 있는 자료가 주 대상

● 데이터셋 구축

  • 크롤링한 데이터를 유형별로 정리한 후
    이를 학습 가능한 형식으로 전환
  • 예: Common Crawl, LAION-5B, OpenBookCorpus 등

● 모델 학습

  • 수집된 텍스트·이미지를 수백억 개 단위로 반복 학습
  • 특정 저자나 작가의 문장 스타일, 콘텐츠 구조까지 포함 가능

문제는 이 과정에서 저작권자 동의를 받지 않고 창작물이 학습에 사용된다는 점이다.

 

저작권법상 AI 학습은 ‘사용’인가 ‘복제’인가?

대한민국 저작권법 제16조에 따르면, 저작물을 복제하거나 전송하려면 저작권자의 허락을 받아야 한다. 여기서 쟁점이 되는 것은
“AI 학습에 사용된 콘텐츠는 ‘복제’에 해당하는가?”이다.

찬성 의견 : 복제다.

  • AI 학습을 위해서는 콘텐츠를 파일 형태로 저장해야 함
  • 일시적 저장이라도 복제권 침해에 해당
  • 실제로 이미지 생성 AI 모델의 사전 학습은 원본 이미지 수집 없이 불가능

반대 의견 : 이용이 아니다.

  • 학습은 단지 데이터의 통계적 특성만 추출하는 행위
  • 원문이나 이미지 자체를 다시 보여주지 않음
  • ‘인용’ 또는 ‘비상업적 분석’의 범주에 해당할 수 있음

현재까지 국내 법은 이에 대해 명확한 판단을 내리지 않았지만, 해외에서는 점차 창작자 보호 측으로 방향이 기울고 있다.

 

해외 사례 : AI 학습 무단 사용에 대한 집단소송

1. Getty Images vs. Stability AI (2023, 영국/미국)

  • 사건 개요
    Getty Images의 수십만 개 이미지가 AI 이미지 생성 모델 Stable Diffusion의 학습에 무단 사용되었다는 이유로 소송 제기

  • 주요 주장
    “이미지를 AI 학습에 사용하는 것은 상업적 이용이며, 저작권 침해에 해당한다.”

  • 진행 상황
    미국과 영국 법원 모두 본안 심리 단계 진입

2. The New York Times vs. OpenAI & Microsoft (2023, 미국)

  • 사건 개요
    NYT 뉴스 기사들이 ChatGPT 학습에 사용된 정황 포착 GPT의 출력 결과에 NYT 문장과 거의 동일한 문장이 포함됨

  • 주요 주장
    “구독자 전용 기사까지 학습 데이터로 사용한 것은 명백한 저작권 침해이며, 독점 콘텐츠 가치 훼손이다.”

  • 진행 상황
    집단소송으로 확대 중, 수백억 원대 손해배상 청구

3. 작가, 일러스트레이터 단체들의 집단행동

  • Sarah Silverman 등 작가 수십 명, AI 회사들을 상대로 저작권 침해 소송 제기
  • “AI가 우리 문장을 무단 학습했다”는 주장
  • 실제로 유사 문체·문장이 생성된 증거 제출

국내에서는 보상 청구가 가능한가?

대한민국에서는 아직 AI 학습용 데이터 사용에 대한 직접적인 판례나 보상 사례는 없다. 하지만 저작권법상 다음 조건이 충족된다면
손해배상 또는 침해금지 청구는 가능할 수 있다.

요건 설명
저작권 보유 원창작자임을 입증할 수 있어야 함
무단 사용 사실 AI 학습에 무단으로 포함되었음을 증명해야 함
손해 발생 유사 콘텐츠로 인한 상업적 피해, 가치 하락 등
고의성 AI 회사 측의 인지 여부 또는 부주의 입증
 

단, 위 요건 중 ‘사용 사실 증명’이 가장 어려운 단계이며, 학습 데이터가 공개되지 않는 경우 소송을 통한 정보 제공 명령이 필요할 수 있다.

 

보상을 받기 위한 실질적 대응 방안

1. 자신의 콘텐츠가 학습에 사용되었는지 확인

  • Common Crawl, LAION-400M 등 공개 데이터셋 목록 검색
  • 자신의 이미지나 블로그 글 URL이 포함되어 있는지 확인

2. AI 모델에 유사 문장이 출력되는지 테스트

  • ChatGPT, Claude 등에 자신이 쓴 문장을 요약·질문 형태로 입력
  • 표현, 구성, 문체가 그대로 출력되는 경우 스크린샷 확보

3. 플랫폼에 콘텐츠 삭제 요청 (Takedown Request)

  • DMCA 절차 또는 구글 이미지 삭제 요청 기능 활용
  • AI 툴 서비스 약관 내에 있는 신고 절차 활용

4. 집단소송 참여 또는 정보 공개 청구

  • 국내 작가협회, 크리에이터 단체 등을 통해 AI 기업에 정보공개 청구 또는 단체 소송 제기 가능성 검토

5. AI 사용 차단 메타태그 삽입

  • User-agent: * Disallow: / 또는 noai, noindex 태그 삽입
    → AI 크롤링 봇이 접근하지 않도록 방지 가능 (일부에만 적용)

결론 : ‘AI가 배우는 것’과 ‘창작자가 권리를 잃는 것’은 다르다.

AI가 학습하는 데이터는 기술의 발전을 위한 자원일 수 있다. 그러나 그 데이터의 상당 부분이 창작자의 허락 없이, 가치 있는 창작물을 무단으로 사용하는 구조라면 이는 기술이 아니라 침해다.

 

창작자는 자신의 콘텐츠가 어디에, 어떤 용도로 쓰이는지 알 권리가 있으며, 그에 따른 이용료, 명시, 삭제, 보상을 요구할 권리가 있다. AI가 성장하려면 창작자의 신뢰 위에서 이루어져야 한다. 그 신뢰를 회복하는 첫걸음은 “AI가 무엇을 배웠는지, 누구에게서 배웠는지”를 공개하고, 책임지는 구조를 만드는 것이다.