AI 학습이 가능한 오픈소스 라이선스

인공지능(AI)의 급격한 발전은 AI 모델 학습을 위한 대규모 데이터셋과 다양한 소프트웨어의 필요성을 증가시키고 있습니다. 이 과정에서 개발자와 연구자들은 오픈소스 라이선스를 활용하여 데이터를 자유롭게 사용하고, 모델을 개발하며, 연구 결과를 공유할 수 있습니다. 그러나 이러한 AI 모델 학습에 적합한 라이선스를 선택할 때는 다양한 법적, 기술적 고려사항이 필수적입니다. 오픈소스라고 해서 저작물을 무조건 자유롭게 사용할 수 있는 것은 아니며, 사용 조건과 법적 제약을 정확히 이해해야 합니다. 이 칼럼에서는 AI 학습에 적합한 오픈소스 라이선스와 이를 선택할 때 고려해야 할 주요 요소들을 심층적으로 살펴보겠습니다.

오픈소스 라이선스의 기본 이해

오픈소스 라이선스는 소프트웨어 또는 데이터의 사용, 수정, 배포를 허용하는 라이선스로, 사용자들이 코드나 데이터를 공유하면서도 저작권자의 권리를 보호할 수 있도록 설계되었습니다. 이러한 라이선스는 크게 두 가지로 나눌 수 있습니다: 카피레프트(Copyleft)와 퍼미시브(Permissive) 라이선스입니다. 이 두 유형은 모두 소프트웨어 사용의 자유를 제공하지만, 그 자유의 범위와 조건에서 중요한 차이가 있습니다. 이제 이 두 라이선스의 주요 특징과 차이점을 자세히 살펴보겠습니다.

카피레프트(Copyleft) 라이선스

카피레프트 라이선스는 소프트웨어의 자유로운 사용을 보장하면서도, 그 자유를 유지하기 위한 강력한 규정을 포함하는 라이선스 유형입니다. 이 라이선스를 따르는 소프트웨어는 다른 개발자나 사용자에게 소스 코드를 제공할 때, 동일한 라이선스 조건을 적용해야 합니다. 카피레프트 라이선스는 소프트웨어의 개방성과 자유를 유지하도록 강제합니다.

주요 특징

자유의 보장: 카피레프트 라이선스는 누구나 소프트웨어를 자유롭게 사용할 수 있도록 보장합니다. 이는 수정, 재배포, 상업적 사용 모두를 포함합니다.
동일 라이선스 적용 의무: 카피레프트 라이선스는 수정된 버전의 소프트웨어나 그 파생물도 원래와 동일한 라이선스로 배포되어야 합니다. 예를 들어, GNU General Public License (GPL)을 따르는 소프트웨어는, 그 소스 코드를 수정하거나 확장한 후에도 동일한 GPL 라이선스로 배포해야 합니다.
공유의 강제성: 소프트웨어를 수정하거나 재배포할 경우, 원래의 소스 코드와 수정된 소스 코드 모두를 공개해야 합니다. 이를 통해 소프트웨어의 발전과 공유를 촉진합니다.

대표적인 카피레프트 라이선스

GNU General Public License (GPL): 카피레프트 라이선스의 대표 주자로, 소프트웨어의 자유로운 사용과 공유를 보장하면서도, 그 자유가 유지되도록 강제합니다.
GNU Lesser General Public License (LGPL): GPL의 변형으로, 주로 라이브러리에 사용되며, 이 라이브러리를 사용하는 소프트웨어는 반드시 GPL로 배포되지 않아도 됩니다.

퍼미시브(Permissive) 라이선스

퍼미시브 라이선스는 사용자의 자유를 최대한 보장하면서도, 소프트웨어의 사용과 배포에 대한 제한을 최소화하는 라이선스 유형입니다. 퍼미시브 라이선스를 따르는 소프트웨어는 사용, 수정, 배포에 있어 매우 유연한 조건을 제공하며, 수정된 소프트웨어를 반드시 원래의 라이선스로 배포할 필요가 없습니다.

주요 특징

광범위한 자유: 퍼미시브 라이선스는 사용자가 소프트웨어를 거의 모든 방식으로 사용할 수 있도록 허용합니다. 이에는 소프트웨어를 수정하거나, 폐쇄 소스 소프트웨어로 통합하는 것도 포함됩니다.
동일 라이선스 적용 의무 없음: 사용자는 퍼미시브 라이선스 하에 제공된 소프트웨어를 수정한 후, 동일한 퍼미시브 라이선스 하에 배포하지 않아도 됩니다. 예를 들어, MIT 라이선스를 따르는 소프트웨어를 수정한 후, 이를 폐쇄된 소스 라이선스로 재배포할 수 있습니다.
단순한 요구 사항: 퍼미시브 라이선스는 주로 저작권 명시와 면책 조항을 포함할 것을 요구합니다. 사용자는 원저작권자의 이름과 라이선스 정보를 유지해야 하지만, 그 외의 제한은 거의 없습니다.

대표적인 퍼미시브 라이선스

MIT License: 가장 널리 사용되는 퍼미시브 라이선스 중 하나로, 소프트웨어의 사용, 수정, 배포에 거의 제한이 없습니다.
Apache License 2.0: 특허 관련 조항을 포함한 퍼미시브 라이선스로, 법적 보호를 강화하면서도 사용의 자유를 보장합니다.
BSD License: 매우 간단한 조건을 제공하는 퍼미시브 라이선스로, 자유로운 사용과 배포가 가능합니다.

라이선스 선택 시 고려사항

AI 학습에 사용할 라이선스를 선택할 때는 다음과 같은 요소들을 고려해야 합니다:

공개 여부: AI 모델이나 데이터를 공개할 의향이 있는지, 혹은 폐쇄된 소스로 유지하고 싶은지에 따라 라이선스 선택이 달라집니다. 카피레프트 라이선스(GPL 등)는 공개 의무를 부과하지만, 퍼미시브 라이선스(MIT, Apache 2.0 등)는 더 유연합니다.
상업적 사용: AI 모델을 상업적으로 사용하려는 경우, 퍼미시브 라이선스가 적합합니다. 카피레프트 라이선스는 상업적 사용 시 소스 코드를 공개해야 하는 경우가 많아, 상업적 비밀 유지가 어렵습니다.
특허 보호: 특허 관련 보호가 필요한 경우, Apache License 2.0과 같은 특허 조항이 포함된 라이선스를 고려해야 합니다.
데이터셋 사용: 데이터셋의 라이선스는 AI 학습에 직접적인 영향을 미칩니다. CC-BY, CC0, PDDL과 같은 데이터셋 전용 라이선스는 데이터를 자유롭게 사용하고 공유하는 데 유리합니다.

AI 학습에 자주 사용되는 오픈소스 라이선스

‍

다음은 AI 학습에 자주 사용되는 주요 오픈소스 라이선스입니다. 다만 AI 학습에 해당 라이선스를 가진 저작물을 사용하는 것이 저작권 침해에 해당되는지 여부는 법원의 판단을 기다려야 합니다. 특히, 미국의 경우 AI 모델이 생성하는 콘텐츠가 원본 저작물과 유사하거나 동일할 정도로 변형되지 않은 경우, 데이터 학습 행위도 저작권 침해로 간주될 가능성이 큽니다.

MIT License
- 특징: MIT 라이선스는 가장 널리 사용되는 퍼미시브 라이선스 중 하나로, 사용자에게 소프트웨어를 복사, 수정, 배포할 수 있는 거의 모든 권한을 부여합니다. 다만, 원저작권 및 면책 조항을 포함해야 하며, 상업적 사용도 자유롭게 가능합니다.
- AI 학습에 적합한 이유: MIT 라이선스는 제한이 적어 AI 모델 학습에 필요한 코드와 데이터를 자유롭게 사용할 수 있으며, 상업적 제품에 통합할 때도 문제가 없습니다.
Apache License 2.0
- 특징: Apache License 2.0은 퍼미시브 라이선스 중 하나로, 특허 관련 조항이 포함되어 있어 법적 보호를 강화합니다. 코드를 수정하고 배포할 때 원저작권, 특허 라이선스, 면책 조항을 포함해야 합니다.
- AI 학습에 적합한 이유: 특허 보호가 필요하거나, 상업적 목적으로 AI 모델을 개발하려는 경우 적합합니다. 또한, Apache License 2.0은 AI 연구에 널리 사용되며, 코드와 데이터를 통합하고 수정하는 데 유연성을 제공합니다.
Creative Commons Attribution (CC-BY)
- 특징: CC-BY 라이선스는 주로 데이터셋에 적용되며, 저작자에 대한 출처 표시를 조건으로 데이터를 자유롭게 사용할 수 있습니다. 상업적 사용도 가능하며, 데이터를 재배포할 때도 출처만 명시하면 됩니다.
- AI 학습에 적합한 이유: CC-BY 라이선스는 데이터셋을 사용하여 AI 모델을 학습시키고, 그 결과물을 상업적으로 사용할 수 있는 자유를 제공합니다. 이는 AI 연구와 데이터 공유에 적합합니다.
Creative Commons Zero (CC0)
- 특징: CC0는 크리에이티브 커먼즈 라이선스 중 가장 자유로운 형태로, 공공 도메인과 유사합니다. 데이터 및 코드를 자유롭게 사용할 수 있으며, 어떠한 제한도 두지 않습니다.
- AI 학습에 적합한 이유: 데이터나 코드를 법적 제약 없이 자유롭게 활용하고자 할 때 최적의 선택입니다. 공공 데이터셋이나 오픈 데이터 프로젝트에 특히 유용합니다.
Microsoft Open Use of Data Agreement (MS O-UDA)
- 특징: MS O-UDA는 마이크로소프트가 제정한 라이선스로, 데이터를 AI 학습과 같은 특정 목적을 위해 자유롭게 사용할 수 있도록 허용합니다. 단, 데이터 사용은 라이선스에서 명시된 제한 사항을 준수해야 합니다.
- AI 학습에 적합한 이유: 이 라이선스는 데이터를 AI 모델 학습을 위해 사용할 수 있도록 명확히 허용하며, 상업적 목적으로도 사용 가능합니다. 다만, 데이터를 재배포하거나 상업적으로 사용할 때는 라이선스 조건을 따를 필요가 있습니다.
Community Data License Agreement – Permissive (CDLA-Permissive)
- 특징: CDLA-Permissive 라이선스는 데이터를 자유롭게 사용할 수 있도록 하면서, 데이터 사용 시 출처를 명시하는 조건만 요구합니다. 데이터는 AI 모델 학습을 포함한 다양한 목적에 사용할 수 있습니다.
- AI 학습에 적합한 이유: CDLA-Permissive 라이선스는 AI 학습을 위해 데이터를 사용하는 것을 명확히 허용하며, 상업적 사용도 가능하다는 점에서 유리합니다. 출처 표시가 유일한 의무사항입니다.

AI 학습과 저작권 표시의 문제

인공지능(AI)의 발전과 함께 생성형 AI 모델이 점점 더 많은 주목을 받고 있습니다. 이러한 모델들은 텍스트, 이미지, 음악 등을 생성하는 데 사용되며, 특히 자연어 처리와 컴퓨터 비전 분야에서 큰 혁신을 이루어냈습니다.

AI 모델의 학습 과정에서는 대량의 데이터를 사용하게 되며, 이 데이터가 저작권으로 보호받는 경우가 많습니다. 학습 과정에서 사용된 저작물에 대해 개별적으로 저작권 표시를 하지 않는 것은 AI의 학습 과정이 주로 비공개적이고, 모델이 생성하는 결과물이 원본 저작물과 직접적으로 연결되지 않기 때문입니다. 예를 들어, META의 라마(LLaMA)와 같은 오픈소스 AI 모델조차 학습에 사용된 데이터 세트를 공개하지 않고 있습니다.

그러나 학습 과정에서 원본 저작물을 단순히 분석하거나 패턴을 학습하는 용도로 사용하고, 최종 생성된 결과물이 원본과 직접적으로 유사하지 않은 경우, 저작권 표시가 없는 것이 저작권 침해로 간주되지 않을 가능성이 있습니다. 이는 미국에서 논의되는 주장 중 하나이며, 법원의 판결에 따라 그 해석이 달라질 수 있습니다.

반면 유럽의 경우, 인공지능법안(EU AI Act)을 통해 저작물과 관련하여 저작권 표시 의무를 명확하게 규정하고 있습니다. AI 모델, 특히 생성형 AI 모델을 개발하는 데 사용된 저작권 보호 콘텐츠는 반드시 공개되어야 합니다. 이는 학습에 사용된 데이터가 저작권법에 저촉되지 않도록 하기 위한 조치입니다. 따라서, AI 시스템 개발자는 학습 과정에서 사용된 저작권이 있는 콘텐츠에 대해 상세한 정보를 문서화하고 이를 공개해야 합니다.

한국에서의 AI와 저작권법

AI 사업자 관점

생성형 AI 산출물이 기존 저작물과 유사할 경우, 이를 방지하기 위한 필터링 조치를 권장하며, 서비스 제공자 간 책임 소재에 대한 명확한 계약 체결을 권고합니다.

저작권자 관점

AI 이용자 관점

개인 견해 및 결론

현재 AI 기술의 발전과 함께 AI 모델 학습에 있어 대규모 데이터셋의 활용은 필수적인 과정으로 자리잡고 있습니다. 이러한 데이터셋은 종종 오픈소스로 제공되며, 개발자와 연구자들은 이를 활용하여 AI 모델을 학습시킵니다. 그러나, AI 모델 학습 과정에서 저작권이 보호된 자료를 사용하는 것이 저작권 침해에 해당하는지 여부는 아직 명확하게 규정되지 않은 영역입니다.

다만 오픈소스 라이선스는 저작물 사용과 관련된 권리를 명시적으로 규정하고 있으며, 이러한 라이선스 하에 제공되는 자료는 해당 조건을 준수하는 한 자유롭게 사용할 수 있습니다. 특히, 퍼미시브 라이선스(MIT, Apache 2.0 등)의 경우 사용, 수정, 배포에 대한 제한이 매우 적어, 특허권에 의해 보호받는 코드를 이용하지 않는 한 AI 모델 학습에 활용할 때 법적 문제가 발생할 가능성은 낮다고 볼 수 있습니다.

더욱이, AI 모델 학습 과정에서 저작권 침해가 발생하는지를 판단하기 위해서는 AI 모델이 학습한 데이터를 단순히 참고하는 것과, 이를 직접적으로 재현하거나 복제하는 것을 구분할 필요가 있습니다. AI 모델이 데이터셋을 학습할 때, 일반적으로 저작물의 내용이나 형식 자체를 복제하기보다는, 그 패턴이나 통계적 특성을 학습하여 새로운 결과물을 생성하는 방식으로 작동합니다. 이 과정은 저작권법상 허용되는 '이차적 저작물'의 생성과는 다르며, 기존 저작물을 그대로 복제하는 행위로 볼 수 없다고 생각합니다.

또한, AI 모델이 생성하는 콘텐츠가 원본 저작물과 상당히 유사하거나 동일한 형태로 나타나지 않는다면, 이는 저작권법에서 규정하는 저작권 침해의 범위에 속하지 않는다고 판단될 수 있습니다. AI 모델이 학습한 데이터를 기반으로 새로운 결과물을 생성하더라도, 그 결과물이 기존 저작물의 '실질적 유사성' 기준을 충족하지 않는 한, 저작권 침해로 인정될 가능성은 낮습니다. 이는 특히 미국 법원의 판례에서, '아이디어와 표현의 이분법' 원칙에 따라 표현된 저작물의 구체적인 표현이 아닌 아이디어 자체는 저작권 보호를 받지 않는다는 점을 볼때 더욱 그러한 것으로 봅니다.

다만 현재시점에서 사견에 불과하며, 각 국가 법원의 판결을 기다려야 하는 시점입니다.

AI 개발자 및 사업자는 카피레프트와 퍼미시브 라이선스의 차이점을 이해하고, AI 모델의 사용 목적과 배포 계획에 맞는 라이선스를 선택하는 것이 중요합니다. 상업적 목적, 데이터 공개 여부, 특허 보호 등 다양한 요소를 종합적으로 고려하여 최적의 라이선스를 선택하는 것이 AI의 발전과 법적 안전을 동시에 확보하는 길입니다. AI 학습과 저작권 문제는 복잡한 영역으로, 각국의 법적 기준과 가이드라인을 지속적으로 모니터링하고, 이에 따라 대응하는 것이 필수적입니다.

‍