인공지능(AI)의 급격한 발전은 AI 모델 학습을 위한 대규모 데이터셋과 다양한 소프트웨어의 필요성을 증가시키고 있습니다. 이 과정에서 개발자와 연구자들은 오픈소스 라이선스를 활용하여 데이터를 자유롭게 사용하고, 모델을 개발하며, 연구 결과를 공유할 수 있습니다. 그러나 이러한 AI 모델 학습에 적합한 라이선스를 선택할 때는 다양한 법적, 기술적 고려사항이 필수적입니다. 오픈소스라고 해서 저작물을 무조건 자유롭게 사용할 수 있는 것은 아니며, 사용 조건과 법적 제약을 정확히 이해해야 합니다. 이 칼럼에서는 AI 학습에 적합한 오픈소스 라이선스와 이를 선택할 때 고려해야 할 주요 요소들을 심층적으로 살펴보겠습니다.
오픈소스 라이선스는 소프트웨어 또는 데이터의 사용, 수정, 배포를 허용하는 라이선스로, 사용자들이 코드나 데이터를 공유하면서도 저작권자의 권리를 보호할 수 있도록 설계되었습니다. 이러한 라이선스는 크게 두 가지로 나눌 수 있습니다: 카피레프트(Copyleft)와 퍼미시브(Permissive) 라이선스입니다. 이 두 유형은 모두 소프트웨어 사용의 자유를 제공하지만, 그 자유의 범위와 조건에서 중요한 차이가 있습니다. 이제 이 두 라이선스의 주요 특징과 차이점을 자세히 살펴보겠습니다.
카피레프트 라이선스는 소프트웨어의 자유로운 사용을 보장하면서도, 그 자유를 유지하기 위한 강력한 규정을 포함하는 라이선스 유형입니다. 이 라이선스를 따르는 소프트웨어는 다른 개발자나 사용자에게 소스 코드를 제공할 때, 동일한 라이선스 조건을 적용해야 합니다. 카피레프트 라이선스는 소프트웨어의 개방성과 자유를 유지하도록 강제합니다.
퍼미시브 라이선스는 사용자의 자유를 최대한 보장하면서도, 소프트웨어의 사용과 배포에 대한 제한을 최소화하는 라이선스 유형입니다. 퍼미시브 라이선스를 따르는 소프트웨어는 사용, 수정, 배포에 있어 매우 유연한 조건을 제공하며, 수정된 소프트웨어를 반드시 원래의 라이선스로 배포할 필요가 없습니다.
AI 학습에 사용할 라이선스를 선택할 때는 다음과 같은 요소들을 고려해야 합니다:
다음은 AI 학습에 자주 사용되는 주요 오픈소스 라이선스입니다. 다만 AI 학습에 해당 라이선스를 가진 저작물을 사용하는 것이 저작권 침해에 해당되는지 여부는 법원의 판단을 기다려야 합니다. 특히, 미국의 경우 AI 모델이 생성하는 콘텐츠가 원본 저작물과 유사하거나 동일할 정도로 변형되지 않은 경우, 데이터 학습 행위도 저작권 침해로 간주될 가능성이 큽니다.
인공지능(AI)의 발전과 함께 생성형 AI 모델이 점점 더 많은 주목을 받고 있습니다. 이러한 모델들은 텍스트, 이미지, 음악 등을 생성하는 데 사용되며, 특히 자연어 처리와 컴퓨터 비전 분야에서 큰 혁신을 이루어냈습니다.
AI 모델의 학습 과정에서는 대량의 데이터를 사용하게 되며, 이 데이터가 저작권으로 보호받는 경우가 많습니다. 학습 과정에서 사용된 저작물에 대해 개별적으로 저작권 표시를 하지 않는 것은 AI의 학습 과정이 주로 비공개적이고, 모델이 생성하는 결과물이 원본 저작물과 직접적으로 연결되지 않기 때문입니다. 예를 들어, META의 라마(LLaMA)와 같은 오픈소스 AI 모델조차 학습에 사용된 데이터 세트를 공개하지 않고 있습니다.
그러나 학습 과정에서 원본 저작물을 단순히 분석하거나 패턴을 학습하는 용도로 사용하고, 최종 생성된 결과물이 원본과 직접적으로 유사하지 않은 경우, 저작권 표시가 없는 것이 저작권 침해로 간주되지 않을 가능성이 있습니다. 이는 미국에서 논의되는 주장 중 하나이며, 법원의 판결에 따라 그 해석이 달라질 수 있습니다.
반면 유럽의 경우, 인공지능법안(EU AI Act)을 통해 저작물과 관련하여 저작권 표시 의무를 명확하게 규정하고 있습니다. AI 모델, 특히 생성형 AI 모델을 개발하는 데 사용된 저작권 보호 콘텐츠는 반드시 공개되어야 합니다. 이는 학습에 사용된 데이터가 저작권법에 저촉되지 않도록 하기 위한 조치입니다. 따라서, AI 시스템 개발자는 학습 과정에서 사용된 저작권이 있는 콘텐츠에 대해 상세한 정보를 문서화하고 이를 공개해야 합니다.
2023년 12월 27일, 문화체육관광부와 한국저작권위원회는 생성형 AI 저작권 안내서를 발표했습니다. 이 안내서는 AI가 대규모 데이터셋을 활용하여 콘텐츠를 생성하는 과정에서 발생할 수 있는 저작권 분쟁을 방지하기 위한 가이드라인을, AI 사업자, 저작권자, 이용자를 대상으로 공개하였습니다.
이러한 가이드라인은 아직 법적 구속력은 없지만, AI 산업계에서는 이러한 안내서가 신사업 추진에 부담을 줄 수 있다는 우려를 표명하고 있습니다. 초거대AI추진협의회는 이 안내서가 사실상 AI 학습을 제한하는 요소로 작용할 수 있다고 평가하며, 저작권 보호와 AI 발전 간 균형을 위한 새로운 법적 체계 마련을 촉구하고 있습니다.
현재 AI 기술의 발전과 함께 AI 모델 학습에 있어 대규모 데이터셋의 활용은 필수적인 과정으로 자리잡고 있습니다. 이러한 데이터셋은 종종 오픈소스로 제공되며, 개발자와 연구자들은 이를 활용하여 AI 모델을 학습시킵니다. 그러나, AI 모델 학습 과정에서 저작권이 보호된 자료를 사용하는 것이 저작권 침해에 해당하는지 여부는 아직 명확하게 규정되지 않은 영역입니다.
다만 오픈소스 라이선스는 저작물 사용과 관련된 권리를 명시적으로 규정하고 있으며, 이러한 라이선스 하에 제공되는 자료는 해당 조건을 준수하는 한 자유롭게 사용할 수 있습니다. 특히, 퍼미시브 라이선스(MIT, Apache 2.0 등)의 경우 사용, 수정, 배포에 대한 제한이 매우 적어, 특허권에 의해 보호받는 코드를 이용하지 않는 한 AI 모델 학습에 활용할 때 법적 문제가 발생할 가능성은 낮다고 볼 수 있습니다.
더욱이, AI 모델 학습 과정에서 저작권 침해가 발생하는지를 판단하기 위해서는 AI 모델이 학습한 데이터를 단순히 참고하는 것과, 이를 직접적으로 재현하거나 복제하는 것을 구분할 필요가 있습니다. AI 모델이 데이터셋을 학습할 때, 일반적으로 저작물의 내용이나 형식 자체를 복제하기보다는, 그 패턴이나 통계적 특성을 학습하여 새로운 결과물을 생성하는 방식으로 작동합니다. 이 과정은 저작권법상 허용되는 '이차적 저작물'의 생성과는 다르며, 기존 저작물을 그대로 복제하는 행위로 볼 수 없다고 생각합니다.
또한, AI 모델이 생성하는 콘텐츠가 원본 저작물과 상당히 유사하거나 동일한 형태로 나타나지 않는다면, 이는 저작권법에서 규정하는 저작권 침해의 범위에 속하지 않는다고 판단될 수 있습니다. AI 모델이 학습한 데이터를 기반으로 새로운 결과물을 생성하더라도, 그 결과물이 기존 저작물의 '실질적 유사성' 기준을 충족하지 않는 한, 저작권 침해로 인정될 가능성은 낮습니다. 이는 특히 미국 법원의 판례에서, '아이디어와 표현의 이분법' 원칙에 따라 표현된 저작물의 구체적인 표현이 아닌 아이디어 자체는 저작권 보호를 받지 않는다는 점을 볼때 더욱 그러한 것으로 봅니다.
다만 현재시점에서 사견에 불과하며, 각 국가 법원의 판결을 기다려야 하는 시점입니다.
AI 개발자 및 사업자는 카피레프트와 퍼미시브 라이선스의 차이점을 이해하고, AI 모델의 사용 목적과 배포 계획에 맞는 라이선스를 선택하는 것이 중요합니다. 상업적 목적, 데이터 공개 여부, 특허 보호 등 다양한 요소를 종합적으로 고려하여 최적의 라이선스를 선택하는 것이 AI의 발전과 법적 안전을 동시에 확보하는 길입니다. AI 학습과 저작권 문제는 복잡한 영역으로, 각국의 법적 기준과 가이드라인을 지속적으로 모니터링하고, 이에 따라 대응하는 것이 필수적입니다.