이미 소장하고 있다면 판매해 보세요.
|
왜 지금 ‘잉여 데이터’에 주목해야 하는가
01 생성형 AI와 데이터 생산 패러다임의 변화 02 잉여 데이터의 존재론적 지위 03 플로리디의 정보철학과 잉여 논리 04 실제 데이터 분석: 생성과 방치의 메커니즘 05 잉여 데이터 분석의 철학적 정당성과 가치 06 알고리즘 편향성과 ‘잉여’로 분류된 소외 07 정보적 엔트로피와 디지털 망각의 미학 08 잉여 데이터의 재해석 09 생성형 AI 시대의 데이터 거버넌스 10 정보적 존재자로서의 인간과 AI의 미래 |
김홍규의 다른 상품
|
지금까지 살펴본 LLM 생성 데이터의 특성들(확률적으로 매번 달라지는 출력, 이론적으로 무한한 생산 가능성, 할루시네이션으로 나타나는 구조적 불신뢰성, 내재된 편향, 인간 경험과의 느슨한 연결)은 이 데이터를 단순히 ‘기계가 만든 글’로 가볍게 지나칠 수 없는 이유를 제공한다. 특히 AI가 필요 이상으로 과잉 생산하는 데이터, 즉 ‘잉여 데이터(surplus data)’는 그 자체로 독립적인 연구 대상이 될 수 있다. 이 연구는 LLM이 대량 생성하는 데이터의 구조적 특성과 그 인식론적·사회적 함의를 탐구하는 새로운 접근법을 제안한다. 이 연구의 실천적 가치는 기존 문헌에 대한 비평적 검토를 토대로, 이를 실제적인 적용 가능성의 영역으로 확장하는 데 있다.
-01_“생성형 AI와 데이터 생산 패러다임의 변화” 중에서 잉여 데이터 연구는 따라서 데이터 가치론을 ‘기능’에서 ‘존재’로 이동시키는 작업이다. 여기서 ‘존재’란 인간의 목적론적 도구로서의 가치를 탈피하여, 데이터 그 자체가 인포스피어의 평형을 유지하는 필수 구성 요소임을 의미한다. 따라서 잉여 데이터를 보존하고 분석하는 행위는 디지털 환경의 생물 다양성을 보호하는 것과 같은 정보 생태계적 책무로 확장될 수 있다. 우리가 잉여를 방치하거나 삭제하는 행위는 단순히 물리적 저장 공간을 확보하는 공학적 조치가 아니라, 인포스피어의 일부를 소멸시키는 존재론적 행위가 된다. 생성형 AI 시대에 우리가 마주한 데이터의 바다는 결코 걷어내야 할 거품이 아니다. 그것은 우리가 발을 딛고 서 있는 새로운 디지털 실재의 토대이자, 미래의 지능 체계가 학습하고 참조할 거대한 기억의 저장소이기도 하다. -03_“플로리디의 정보철학과 잉여 논리” 중에서 호네트(Axel Honneth)의 ‘인정 이론’은 이 불균등성을 이해하는 유용한 틀을 제공한다. 호네트의 생각을 단순하게 풀면 이렇다. 인간은 물질적 필요만 채워진다고 존엄하게 살 수 있는 존재가 아니며, 자신이 누구인지가 타인과 사회로부터 ‘제대로 인정받을 때’ 비로소 온전한 삶을 살 수 있다. 그는 이 인정이 세 층위−가족·친밀한 관계 속의 정서적 인정, 법 앞의 동등한 주체로서의 법적 인정, 그리고 자신이 속한 공동체의 삶의 방식이 사회적으로 가치 있다고 존중받는 사회적 가치 부여−에서 이루어지며, 어느 한 층위에서든 인정이 부재하면 당사자의 자기관계(self-relation)가 손상된다고 본다. AI 시스템이 어떤 공동체의 언어와 경험을 체계적으로 ‘잉여’로 분류한다면, 그것은 바로 세 번째 층위에서 일어나는 인정 부재이며, 해당 공동체의 말하기 방식 자체가 거대한 AI 인프라를 통해 매일 ‘가치 없는 것’으로 판정되는 셈이다. -06_“알고리즘 편향성과 ‘잉여’로 분류된 소외” 중에서 생성형 AI 시대의 데이터는 전통적 거버넌스 틀이 전제하던 조건−명확한 생산자, 확정 가능한 유통 경로, 단일한 소유자−가운데 어느 하나도 충족하지 않는다. 예를 들어, 한 편의 소설이 AI로 생성될 때 그것은 사용자의 프롬프트, 모델의 매개변수, 학습 데이터의 집합, 강화학습 단계의 인간 피드백이 교차한 결과물이다. 여기서 ‘생산자’를 어느 한 주체로 지목하는 것은 원리적으로 불가능하다. 요리에 비유하자면, 수백 명의 손을 거친 뷔페 음식에서 ‘이 한 접시의 요리사가 누구인가’를 묻는 것과 같다. 또한 그 결과물이 다시 다음 세대 모델의 학습 데이터로 유입되면서 ‘유통 경로’가 재귀적 고리를 형성한다. 따라서 기존의 데이터 보호 법제나 저작권 제도를 그대로 연장하는 것으로는 충분치 않으며, AI 시대에 맞는 새로운 거버넌스 구조를 정립해야 한다. -09_“생성형 AI 시대의 데이터 거버넌스” 중에서 --- 본문 중에서 |
|
AI가 버린 데이터의 진실 생성형 AI는 놀라울 만큼 정교한 답을 만들어 내지만, 그 이면에는 수없이 버려지고 배제된 데이터가 존재한다. 이 보이지 않는 영역, ‘잉여 데이터’에 주목한다. 잉여 데이터란 단순히 남은 정보가 아니라, AI 학습 과정에서 선택되지 못하고 밀려난 채 축적되는 구조적 산물이다. 저자는 데이터가 넘쳐날수록 오히려 정보의 질이 저하되고, AI가 자신이 만든 데이터를 다시 학습하는 ‘자기 오염 순환’과 모델 붕괴 위험이 심화되는 현실을 진단한다. 나아가 무엇이 잉여로 분류되는가는 곧 무엇이 가치로 인정되는가의 문제이며, 어떤 데이터가 배제되는가는 어떤 목소리가 침묵되는가에 직결된다고 지적한다. 마르크스의 잉여가치, 다크 데이터, 폐기물 연구, 아카이브 이론, 정보 엔트로피 등 다양한 사유를 종합해 잉여 데이터의 존재론과 윤리를 재구성한다. 생성형 AI 시대의 데이터 생태계를 단순한 기술 문제가 아니라 권력, 기억, 윤리의 문제로 확장하며, 인포스피어 전체의 건강을 기준으로 데이터를 다시 사유할 것을 제안한다. |