본문 바로가기

ESG(환경·사회·지배구조) 스타트업

ESG 스타트업의 윤리적 AI 학습 데이터 수집 방침 사례

AI 기술의 성능은 ‘데이터’로부터 출발하지만, 그 데이터를 어떻게 수집하고 사용하는지는 기술의 윤리성을 좌우하는 핵심 요소다. 특히 AI를 서비스에 빠르게 적용하고자 하는 스타트업 입장에서는 비용 절감과 신속한 모델 훈련 사이에서 윤리적 판단을 요구받는 상황이 자주 발생한다. 무단 크롤링, 허가 없는 사용자 콘텐츠 이용, 편향된 데이터셋 활용 등은 법적 위험뿐 아니라 기업의 ESG 리스크를 증폭시킬 수 있다.

이러한 배경 속에서, 일부 AI 스타트업은 초기부터 ‘윤리적 학습 데이터 수집’에 대해 명확한 원칙과 실행 정책을 세우고 이를 ESG 보고서와 서비스 정책에 포함하기 시작했다. 이들은 투명성, 사용자 동의, 공정성, 접근성, 편향 최소화 등의 기준을 기술 설계에 반영함으로써, AI 기술의 지속가능성과 기업 신뢰를 동시에 확보하고 있다. 이번 글에서는 윤리적 데이터 수집을 ESG 경영의 일환으로 실천하고 있는 스타트업 사례를 중심으로, AI 시대의 사회적 책임 실현 방식을 살펴본다.

윤리적 데이터 수집을 ESG 경영

‘데이터그라운드’: 사용자 동의 기반 개인 콘텐츠 수집 모델

‘데이터그라운드(DataGround)’는 AI 챗봇 및 자연어 생성 모델을 개발하면서, 전적으로 사용자 동의 기반의 텍스트 데이터를 수집하는 정책을 채택한 스타트업이다. 이 기업은 2023년부터 자체 커뮤니티 플랫폼을 통해 ‘AI 훈련 참여자’를 모집하고, 이들이 작성한 글이나 대화 데이터를 사전 동의 하에 학습용 데이터로 사용한다. 사용자에게는 ▲사용 데이터 내역 확인 기능 ▲데이터 삭제 요청 기능 ▲데이터 사용 이력 보고서 등을 제공하며, 데이터 권리를 명확하게 보장하고 있다.

데이터그라운드는 ‘Opt-in 방식의 데이터 수집이 정확도 향상보다 윤리성을 우선해야 한다’는 철학을 갖고 있다. 실제로 초기 모델 훈련 속도는 느렸지만, 사용자 신뢰도와 학습 데이터의 품질은 기존 무작위 수집 방식보다 현저히 높았다는 내부 분석 결과를 통해 그 방향성을 입증했다. 이 스타트업은 ESG 보고서에 ▲데이터 동의 비율 ▲삭제 요청 처리 속도 ▲윤리 자문위원회 운영 현황 등을 포함하며, AI 데이터 윤리성을 기업 전략의 핵심 가치로 설정하고 있다.

‘페어마인드AI’: 사회적 편향 제거를 위한 학습데이터 정제 프로세스 운영

‘페어마인드AI(FairMind AI)’는 AI 모델 훈련 전 단계에서 사회적 편향과 차별 요소를 제거하기 위한 정제 프로세스를 도입한 NLP(자연어처리) 전문 스타트업이다. 이들은 수집된 뉴스, SNS, 리뷰, 포럼 데이터에 포함된 ▲인종/성별/지역 기반 차별 언어 ▲정치적 왜곡 표현 ▲폭력성/선입견적 언사 등을 자체 알고리즘과 인간 리뷰어가 함께 필터링하는 ‘이중 확인 체계’를 운영한다.

페어마인드AI는 특히 학습 데이터에 포함되는 성별 고정관념과 직업 편향 데이터를 가장 민감하게 다루며, ‘모델이 사회적 통념을 그대로 학습하면 기술이 아닌 구조적 차별을 재생산할 수 있다’는 원칙을 견지한다. 또한 학습 후 검증 단계에서 ‘공정성 측정 모델’(Fairness Metric Scoring)을 자체적으로 개발해 모델의 응답 내용이 특정 집단에 불균형한 영향을 미치는지를 정량 분석한다.

이 스타트업은 ESG 실천 항목으로 ▲편향 제거율 ▲데이터 정제 가이드라인 공개 여부 ▲비차별 설계 비율 등을 제시하고 있으며, AI가 학습하는 ‘언어의 윤리’에 기업의 철학을 반영한 대표 사례로 주목받고 있다.

‘레귤로지’: 법적 데이터 수집 기준 준수와 윤리 감수성 통제 체계 구축

‘레귤로지(Regulo.G)’는 AI 학습을 위한 데이터 수집 단계에서 국내외 개인정보 보호법, 저작권법, 데이터 이용 규정을 실시간 반영해 합법성과 윤리성을 통합 관리하는 자동화 시스템을 구축한 스타트업이다. 이 기업은 전 세계 30여 개국의 법률 API를 연동해, 크롤링 대상 데이터의 수집 가능 여부, 이용 범위, 재가공 허용 여부 등을 사전에 법적으로 검토한다. 이 시스템은 AI 개발자가 수집 전에 ‘법적 체크리스트’를 자동으로 실행하게 만들어 의도하지 않은 법적 리스크를 차단한다.

레귤로지는 또 하나의 강점으로, 사내 ‘AI 윤리 기준 감수팀’을 별도로 운영한다. 이 팀은 데이터 수집 방식뿐 아니라 ▲모델이 어떤 문제를 해결하는가 ▲그 과정에서 사회적 약자를 어떻게 고려하는가 등 모델 자체의 사회적 영향력까지 분석하고 조정하는 역할을 맡는다. 이러한 구조는 단순한 기술이 아닌, 책임 기반 설계(Responsible AI Design)의 출발점이라 할 수 있다.

ESG 보고서에는 ▲법률 위반 수 0건 유지 기간 ▲법적 규제 대응 프로토콜 업데이트 횟수 ▲윤리 검토 회의 정례화 여부 등을 명시해, 법과 윤리의 경계를 기술적으로 통합 관리하는 선도 사례로 주목받고 있다.

데이터의 윤리는 AI 신뢰의 근간이 된다

AI는 학습한 만큼 반응한다. 그만큼 AI 학습 데이터의 수집·정제·관리 방식은 기술의 윤리 수준을 결정짓는 출발점이다. 데이터그라운드, 페어마인드AI, 레귤로지와 같은 스타트업들은 기술 중심 성장보다는 사회의 신뢰를 우선순위에 둔 윤리적 데이터 수집 방침을 채택하고 있으며, 이는 단순한 도덕적 선언이 아닌 사업 전략과 투자 유치, 공공 협력의 실질적 경쟁력으로 작동하고 있다.

무엇보다 이들은 ▲사용자 권리 보호 ▲편향 제거 ▲법적 정합성 확보를 기반으로 데이터 윤리성과 ESG 경영이 결합된 AI 생태계를 선도하고 있다. AI 기술이 더욱 확산되는 시대일수록, 데이터는 그냥 ‘정보’가 아니라 ‘신뢰의 총량’이 되며, 그 신뢰를 어떻게 쌓아가는지가 스타트업의 장기 생존성과 사회적 책임의 척도가 된다.