쓸모없는 데이터를 입력하면 쓸모없는 데이터가 출력된다

책 <THICK data> 를 읽으며 'AI 학습'에 관하여 떠오른 생각들.

쓸모없는 데이터를 입력하면 쓸모없는 데이터가 출력된다
📖
책 <THICK data> 를 읽으며 'AI 학습'에 관하여 떠오른 생각들.

얼마 전 AI 전문가와 LLM학습에 대해 이야기를 나눴는데, 현재 우리가 보유하고있는 데이터(메타데이터, 리뷰, 커뮤니티 등)를 학습하면 재미있는 서비스를 만들 수 있겠다는 이야기를 들었다.

그래서 물었다. 이미 국내에는 디씨인사이드, 더쿠, 블라인드 등 유명 커뮤니티에서 생산되는 글의 양이 훨씬 많은데 그쪽이 훨씬 더 경쟁력있지 않을까요?

그의 답변이다. 익명 커뮤니티에서는 대부분 부정적인 메세지가 많아요. 부정적인 커뮤니티를 학습하면 '혐오 AI'가 탄생합니다.

AI 학습에 대한 지식이 없던 나에게는 새로운 관점이었고 동의되는 메세지였다.


*책 thick data 중

IT 산업에서 자주 쓰이는 격언 하나가 GIGO(Garbage In, Garbage Out)다. 쓸모없는 데이터를 입력하면 쓸모없는 데이터가 출력된다는 말이다. 대개는 출력 데이터의 양에 주목하지만, 입력 데이터의 질도 중요하다. 제아무리 뛰어난 big data 기술을 보유하고 있어도 입력 데이터의 질을 충분히 고민하고 검토하지 않으면 의미 있는 출력 데이터를 얻을 수 없다.

AI 시대로 접어들면서 양질의 원천 데이터를 보유하고 있는 커뮤니티 플랫폼의 가치는 기하급수적으로 커지고 있다.

미국 최대 온라인 커뮤니티 ‘레딧(Reddit)’은 구글과의 제휴로 자사 콘텐츠를 구글의 인공지능(AI) 학습에 활용시킬 것이라고 발표했고, 오픈AI 샘 올트먼은 레딧 지분을 9% 가까이 확보했다고 한다.

양사가 개발중인 제미나이, ChatGPT 언어 모델에 레딧의 데이터를 학습할 계획이라고 한다.

미국 레딧 콘텐츠는 AI기업에게 노다지, 구글과 협업에다 올트먼은 지분 투자
2010년 10월 미국 워싱턴 DC에 위치한 공원 내셔널 몰에서 열린 한 집회에 참가자가 레딧의 로고를 들고 서 있다. <플리커>[비즈니스포스트] 미국 최대 온라인…

결국 AI를 사용하는 최종 소비자는 사람이다. AI 모델은 인간을 더 잘 이해하기 위해 다양한 인간의 언어, 심리를 학습하며 진화해 나가고 있다.

책에서는 아무리 AI 기술이 발달한다고 하더라도 도달할 수 없는 영역이 있음을 이야기한다.

인공지능과 인간이 맥락을 얼마나 다르게 파악하는가에 관해 흥미로운 통찰을 들려주는 책이 있다.

《진화하는 언어The Language Game》에 언급된 이야기다.

단어 여섯 개로 사람을 울릴 수 있으면 돈을 주겠다는 사람들에게 '헤밍웨이'가 즉석에서

‘For sale. Baby shoes. Never worn. (아기 신발 팝니다. 신은 적 없음.)’

이라는 글을 지어서 보여 줬다는 유명한 에피소드를 언급한다. 인간은 이 여섯 단어의 조합에서 아기 잃은 부모의 슬픔, 죽은 아기의 신발마저 팔아야 하는 가난하고 고단한 삶을 읽는다. 그러나 인공지능은 이 문장을 그저 상품 판매 문구로 해석한다.

무표정한 남성의 얼굴을 찍은 사진이 있다. 장례식 사진을 보여 준 뒤에 이 남성의 사진을 보여 주면 사람들은 남성이 슬퍼하고 있다고 여긴다. 그러나 책이 빽빽하게 꽂혀 있는 서가 사진 뒤에 이 남성의 사진을 보여 주면 남성의 표정에서 따분함을 읽는다. 우리가 같은 사람의 같은 표정에서 서로 다른 감정을 유추하는 이유는 무엇일까. 맥락이 달라졌기 때문이다.

대너 보이드와 헬렌 피셔의 연구는 아무리 디지털 세상이 고도화돼도 물리적 세상의 대체물은 될 수 없으며, 서로를 필요로 하고 함께 연결되고자 하는 인간 본성을 무화시킬 수도 없음을 증명한다.

이는 최근 뜨거운 화두로 떠오른 챗GPT에도 해당하는 말이다. 생성형 인공지능이 단 7일 만에 《삶의 목적을 찾는 45가지 방법》과 같은 자기계발서를 써서 인간에게 훈수를 두는 시대가 왔지만, 이 모든 기술 진보로도 원시인의 뇌를 지닌 우리의 본성을 변화시키진 못한다.

기술은 예나 지금이나 우리의 실제 세계와 얼마나 의미 있게 연결되느냐에 따라 성패가 갈릴 것이다. 가상 세계를 구현하는 기술은 끊임없이 진보하겠지만, ‘유저’가 아닌 실제 물리적 세상을 살아가는 ‘인간’을 고려하지 않으면 그 무엇도 성공할 수 없다.

그렇다. 우리는 실존 세계에 살고있으며 각자가 경험한 스토리 안에서 살아간다.

Next 제품의 성공은 실제 인간의 삶에 기술이 얼마나 의미있게 연결되는지에 달려 있다.