작성자: 유재연 (옐로우독 AI 펠로우)
* 본 자료는 ESC에서 2023년 4월 22일 개최한 '인공지능 윤리 포럼 - ChatGPT 활용 그 너머를 묻다' 발표 요약문입니다.
얼마 전 흥미로운 경험을 했다. 생성 인공지능(Generative AI, 이하 생성AI)을 활용하는 케이스들에 대해서 강의를 하던 참에, 특정 도메인에서의 사용례를 들려달라는 요청을 받았다. 기술 인력이 들어가 문제를 해결하는 씬은 아니어서, 아무래도 벌써부터 케이스가 나와있을 것 같지는 않은 분야였다. 구글로 검색을 한다고 해서 나오는 것도 아니었다.
문득 바드(Bard, 구글의 언어모델 기반 채팅 서비스)에게 물어보면 좋겠다는 생각이 들었다. 챗GPT(ChatGPT)와 달리 최신 정보에도 접근이 가능하기 때문이다. 결과적으로 바드는, 다섯 개쯤 되는 업체를 대며 그들이 생성AI를 활용하고 있다고 얘기해줬다. 챗GPT를 비롯한 자연어 기반 생성AI 서비스를 많이 써본 분들이라면 충분히 예상할 만 하게도, 이 다섯 개 업체 중 네 곳은 생성AI를 쓰고 있지 않았다. 바드가 지어낸 것이었다. 그런데 생각해보니, 이 네 곳은 생성AI를 써서 바드가 조언한 대로 비즈니스 디벨롭을 할 수 있겠다 싶었다. 바드는 내 요구에 대해 거짓 정보를 내어 주었지만, 역으로 보면 브레인스토밍을 도운 것이기도 했다. 이러니, 챗GPT에게 매달 지불하는 20달러와 달리(Dall-E)에게 주기적으로 충전하는 돈을 비롯해, 생성 AI에게 쥐어주는 돈을 도저히 물리지 못하고 있다.
기술에 대한 의존도는 궁극적으로 커질 수 밖에 없다. 행동뿐 아니라 생각까지도 아웃소싱이 가능해진 세상이니 말이다. 더구나 챗GPT 플러그인(외부 앱이나 서비스와 연동해 줄글 하나로 최적의 아웃풋을 찾아내는 기능)이 활성화되고, 마이크로소프트 365로 모든 정보가 엮여 인사이트로 배출되는 시장이 자리를 잡으면, 업계의 AI 전환은 시간문제가 될 것이다. 여기에서 우리는 세 가지 정도의 윤리적 고민을 하게 된다. 이 기술을 쓸 수 있는 사람과 못 쓰는 사람의 격차는 어떡할까. 이 기술로써 힘을 얻게 되는 이들은 누굴까. 그리고 그 결과물들이 가치판단까지 하게 된다면, 그 때의 기준은 누가 정해야 하나.
격차의 문제
챗GPT는 비전공자를 비롯한 대중의 AI 사용을 늘리는 계기가 됐다. 인터넷 주소만 치고 들어가면 손쉽게 기존의 계정으로 가입을 해서 쓸 수 있다. 기존의 GPT-3가 제공하던 플레이그라운드는 어쩐지 망망대해에서 어떻게 배를 띄워야할지 고민하게 만드는 디자인이었다. 그러나 챗GPT 화면은 단순하다. 말을 하고, 대답을 듣고, 또 물을 수 있다. 디자인 측면에서도, 그리고 말을 잘 받아 치는 성능의 측면에서도, 사람들로 하여금 어렵지 않게 기술을 접하도록 도왔다.
하지만 이미 기술에 대한 두려움이 많은 사람들이 있다. 툭하면 개인정보 유출과 보이스피싱이 넘치는 세상에서, 눈 침침한 어르신들과 판단 능력에 대해 스스로 조심스러워하는 많은 개인들은 그 창에서 무엇 하나 질문하기가 무섭다. 물론 프라이버시 문제와 데이터 오너십에 대한 이슈는 AI 서비스를 둘러싸고 앞으로도 가장 첨예하게 부딪힐 리스크 중 하나다. 하지만 그에 앞서, 여러가지 이유로 기술을 써 볼 수 없는 사람들, 그리고 각기 다른 문화권과 제도, 환경에 있는 이들의 의견은 기술 발전사에 어떻게 적용될 수 있을까.
이 격차는 단순히 맞춤형 서비스로부터 혜택을 보지 못한다는 수준을 넘어서서 개개인의 성장과 결부돼 훨씬 더 극대화될 수 있다. 가령 AI가 던져주는 대답에 대해 윤리적 판단을 할 수 있는 지식 여부와, 그 지식을 쌓을 수 있는 환경의 유무는 아주 민감한 이슈가 될 것으로 전망된다. 지식 안에서도 격차가 발생할 수 있다. 데이터화 되지 않은 지식들은 말그대로 AI가 구성한 세계에서 밀려나버릴 수도 있고, 극소수의 정보만으로 특정 세계가 구성돼 버릴 수도 있다. 격차의 증대는, 힘을 가진 일부 그룹에 의해 재정립되고, 재구성될 수 있다. 그리고 그 세상이 역으로 다시 일반적인 사람들에게 전달되고 영향을 끼칠 수 있다. 극단적인 우려일 수도 있겠지만 말이다. 디지털 디바이드가 AI 디바이드로 이어지는 것을 단순히 교육이나 훈련 차원에서 보충하기에는 너무나도 많은 장벽이 있는 것도 사실이다.
힘의 문제
전술한 바와 같이, 힘을 가진 이들이 이토록 확산력이 높은 기술이라는 미디엄을 타고 그 힘을 더욱 키울 수 있는 환경이 마련돼 있다. 생성 AI만 해도 OpenAI와 마이크로소프트의 힘이 아주 커질 것으로 전망된다. 산업 전반에서 중요하게 역할을 해내는 몇몇 태스크만 차지해도, 사람들의 피드백과 데이터를 끌어 모아 더 나은 기술로, 더 편한 서비스로 발전시킬 수 있는 플라이휠을 돌릴 수 있다. 그런데 기술 기업의 특성상, 혹여 잘못된 판단이 나오거나 이에 대한 전반적인 감시를 하고 싶어도, 기업 외부인이 데이터를 들여다보거나 알고리즘을 뜯어보는 일은 기밀 침해와 같은 이유로 쉽지 않다. 힘을 가진 기업의 자체적인 윤리에 대한 노력이 필요하지만, 그것만 바라볼 수는 없는 노릇이다. 오히려 빅테크를 중심으로 윤리팀을 해체시키거나 주요 인물을 해고하는 등의 일도 심심찮게 발생하고 있다.
물론 빅테크 기업들을 견제하는 수단으로 데이터 오너십과 프라이버시에 대해서 강력하게 규제를 하는 국가들도 속속 나오고 있다. 대표적인 곳이 EU다. 이미 GDPR(General Data Protection Regulation, 2018년 발효)을 통해 개인 데이터를 무단으로 수집하는 것을 방지하고, 사용자들이 스스로 데이터에 대해 컨트롤을 할 수 있도록 정하는 강력한 규제를 내보냈다. 최근 챗GPT가 학습한 데이터 및 다시 피드백으로 받아가는 데이터에 대해 문제제기하기 시작한 곳도 EU 가입국들이다. 뿐만 아니라 미국과 한국을 비롯한 여러 나라에서도, AI 서비스의 파급력에 대해 충분히 학습하고 이에 대한 규제와 오남용 방지책을 살펴보고 있다.
국가적 규제도 필요하지만, 시민사회단체들의 감시체계 작동 또한 매우 중요하다. ‘정치하는 엄마들’의 포털 사이트 검색결과에 대한 모니터링 및 액션 사례는 국내 시민단체의 대표적인 사례가 아닐까 싶다. 일반적인 단어에 대해서도 성적 게시물이 필터링되지 않고 나오는 것을 일일이 모니터링해 포털 업체들과 정부에 시정을 요구해 빠르게 문제를 해소해가고 있다. 기술 발전과 규제 사이에서 이론이 분분하지만, 분명한 건, 인간 사회에서 큰 패러다임 전환을 하게 될 AI 기술에 대해 충분한 검토와 의견의 개입이 있어야 한다는 점이다.
기준의 문제
AI 윤리 문제와 관련해 가장 많이, 치열하게 고민되는 부분은 바로 이 AI의 결과물을 둘러싼 기준에 대한 문제다. 이 논의는 특히 2018년 젠더셰이드 논문1)을 기점으로 불이 붙었다. 결국 인간이 만들어낸 데이터셋을 학습한 인공지능 알고리즘은, 다수의 사람들이 지닐 법한 편견이나 편향을 그대로 학습할 것이라는 논리가 굳어졌고, 이로 인해 알고리즘의 아웃풋이 사람들에게 도로 치우친 생각과 관념을 주입하게 될 것이라는 우려가 증가했다. 이후 알고리즘 모델을 만들 때는 모델의 데이터셋에 대한 설명과 모델을 만든 목적 등을 상세하게 기재하도록 하는 움직임(Model Card)2) 이 나왔고, 새로운 모델에 대한 학술 논문들에는 어떻게 모델의 편향성을 낮추려는 노력을 했는지에 대한 내용이 탄소배출량 표기와 함께 포함되기 시작했다.
그러나 여전히, 편향이나 거짓정보, 폭력적인 내용에 대해 그 기준을 정할 것이냐에 대해서는 논의가 끊이지 않고 있다. 가령 얼마 전 가디언 연구팀이 지적한 바와 같이, AI 이미지 분류 모델의 선정성 점수에 대해, 남성의 상의 탈의는 선정적이지 않지만 여성 속옷이 등장하면 급속도로 선정성 점수가 올라가는 것이 대표적인 사례일 것이다. 여러 알고리즘 모델의 기저에 여성 대상화가 강력하게 작동하는 바람에, 임산부의 배도 여성의 나체로 판단돼 유해 콘텐츠가 되어버리는 것이다.
뿐만 아니라 문화적 맥락에 대해서도 다양한 이슈가 발생할 수 있다. AI Ethics 분야의 저명한 학자인 최예진 교수(University of Washington)는 자연어로 정비된 규범집(Commonsense)을 학습시켜 기계(로봇)의 윤리 이슈를 해소하고자 하는 실험을 진행했는데3) , 서울대에서 진행했던 한 대담에서 그는 규범집의 유무 여부가 로컬화를 비롯한 여러 문화적 맥락 적응에도 매우 중요한 요소가 될 것이라고 설명한 바 있다. 자율주행차의 트롤리 딜레마에 대해 문화권에 따라 각기 다른 선택을 한다는 연구4)도 이미 널리 알려져 있다.
다양한 배경의 사람들이 데이터 작업부터 알고리즘 설계, 서비스 디자인과 제공, 그리고 모든 이해관계자의 레이어에 포함돼야 한다는 주장은 그래서 더욱 힘을 얻어가고 있다. AI 기술이 궁극적으로 사람들의 삶에 깊숙이 들어와 작동하게 되는 상황인 만큼, 더 많은 사람들이 기술을 자꾸만 써 보고, 암호를 풀듯 문제점을 자꾸만 발견해가야 한다. AI 리터러시의 증대도 같은 관점에서 늘 나오는 주제다. 기술 자체는 갈수록 플랫(Flat)해지고 있다. 활용과 개발의 문턱이 점점 낮아지고 있기 때문에, 더 많은 사람들이 참여할 수 있는 폭도 넓어지고 있다. 이제부터는 속도의 문제다. 특정 가치관과 힘의 논리에 모든 기술과 상호작용이 좌우되기 전에, 다양한 이들이 빠르게 움직여야 한다.
참고자료
1) Buolamwini & Gebru (2018). Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. FAT* ’18. AI 안면 인식 서비스가 인종과 젠더에 따라 각기 다른 정확도를 보인다는 내용. 실험 결과, 백인 남성에 대해 서비스가 높은 정확도를 보이는 데 비해 흑인 여성에 대해서는 상대적으로 낮은 성능을 보였다
2) Mitchell et al. (2019) Model Cards for Model Reporting. FAT*’19.
3) Zellers et al. (2018) Swag: A large-scale adversarial dataset for grounded commonsense inference. Arxiv, 2018.
4) Gold et al. (2014) Cultural differences in responses to real-life and hypothetical trolley problems. Judgment and Decision making, 2014.
* 페이지 하단에 발표 자료가 첨부되어 있습니다.
#AI윤리포럼요약문 #인공지능윤리를묻다
작성자: 유재연 (옐로우독 AI 펠로우)
* 본 자료는 ESC에서 2023년 4월 22일 개최한 '인공지능 윤리 포럼 - ChatGPT 활용 그 너머를 묻다' 발표 요약문입니다.
얼마 전 흥미로운 경험을 했다. 생성 인공지능(Generative AI, 이하 생성AI)을 활용하는 케이스들에 대해서 강의를 하던 참에, 특정 도메인에서의 사용례를 들려달라는 요청을 받았다. 기술 인력이 들어가 문제를 해결하는 씬은 아니어서, 아무래도 벌써부터 케이스가 나와있을 것 같지는 않은 분야였다. 구글로 검색을 한다고 해서 나오는 것도 아니었다.
문득 바드(Bard, 구글의 언어모델 기반 채팅 서비스)에게 물어보면 좋겠다는 생각이 들었다. 챗GPT(ChatGPT)와 달리 최신 정보에도 접근이 가능하기 때문이다. 결과적으로 바드는, 다섯 개쯤 되는 업체를 대며 그들이 생성AI를 활용하고 있다고 얘기해줬다. 챗GPT를 비롯한 자연어 기반 생성AI 서비스를 많이 써본 분들이라면 충분히 예상할 만 하게도, 이 다섯 개 업체 중 네 곳은 생성AI를 쓰고 있지 않았다. 바드가 지어낸 것이었다. 그런데 생각해보니, 이 네 곳은 생성AI를 써서 바드가 조언한 대로 비즈니스 디벨롭을 할 수 있겠다 싶었다. 바드는 내 요구에 대해 거짓 정보를 내어 주었지만, 역으로 보면 브레인스토밍을 도운 것이기도 했다. 이러니, 챗GPT에게 매달 지불하는 20달러와 달리(Dall-E)에게 주기적으로 충전하는 돈을 비롯해, 생성 AI에게 쥐어주는 돈을 도저히 물리지 못하고 있다.
기술에 대한 의존도는 궁극적으로 커질 수 밖에 없다. 행동뿐 아니라 생각까지도 아웃소싱이 가능해진 세상이니 말이다. 더구나 챗GPT 플러그인(외부 앱이나 서비스와 연동해 줄글 하나로 최적의 아웃풋을 찾아내는 기능)이 활성화되고, 마이크로소프트 365로 모든 정보가 엮여 인사이트로 배출되는 시장이 자리를 잡으면, 업계의 AI 전환은 시간문제가 될 것이다. 여기에서 우리는 세 가지 정도의 윤리적 고민을 하게 된다. 이 기술을 쓸 수 있는 사람과 못 쓰는 사람의 격차는 어떡할까. 이 기술로써 힘을 얻게 되는 이들은 누굴까. 그리고 그 결과물들이 가치판단까지 하게 된다면, 그 때의 기준은 누가 정해야 하나.
격차의 문제
챗GPT는 비전공자를 비롯한 대중의 AI 사용을 늘리는 계기가 됐다. 인터넷 주소만 치고 들어가면 손쉽게 기존의 계정으로 가입을 해서 쓸 수 있다. 기존의 GPT-3가 제공하던 플레이그라운드는 어쩐지 망망대해에서 어떻게 배를 띄워야할지 고민하게 만드는 디자인이었다. 그러나 챗GPT 화면은 단순하다. 말을 하고, 대답을 듣고, 또 물을 수 있다. 디자인 측면에서도, 그리고 말을 잘 받아 치는 성능의 측면에서도, 사람들로 하여금 어렵지 않게 기술을 접하도록 도왔다.
하지만 이미 기술에 대한 두려움이 많은 사람들이 있다. 툭하면 개인정보 유출과 보이스피싱이 넘치는 세상에서, 눈 침침한 어르신들과 판단 능력에 대해 스스로 조심스러워하는 많은 개인들은 그 창에서 무엇 하나 질문하기가 무섭다. 물론 프라이버시 문제와 데이터 오너십에 대한 이슈는 AI 서비스를 둘러싸고 앞으로도 가장 첨예하게 부딪힐 리스크 중 하나다. 하지만 그에 앞서, 여러가지 이유로 기술을 써 볼 수 없는 사람들, 그리고 각기 다른 문화권과 제도, 환경에 있는 이들의 의견은 기술 발전사에 어떻게 적용될 수 있을까.
이 격차는 단순히 맞춤형 서비스로부터 혜택을 보지 못한다는 수준을 넘어서서 개개인의 성장과 결부돼 훨씬 더 극대화될 수 있다. 가령 AI가 던져주는 대답에 대해 윤리적 판단을 할 수 있는 지식 여부와, 그 지식을 쌓을 수 있는 환경의 유무는 아주 민감한 이슈가 될 것으로 전망된다. 지식 안에서도 격차가 발생할 수 있다. 데이터화 되지 않은 지식들은 말그대로 AI가 구성한 세계에서 밀려나버릴 수도 있고, 극소수의 정보만으로 특정 세계가 구성돼 버릴 수도 있다. 격차의 증대는, 힘을 가진 일부 그룹에 의해 재정립되고, 재구성될 수 있다. 그리고 그 세상이 역으로 다시 일반적인 사람들에게 전달되고 영향을 끼칠 수 있다. 극단적인 우려일 수도 있겠지만 말이다. 디지털 디바이드가 AI 디바이드로 이어지는 것을 단순히 교육이나 훈련 차원에서 보충하기에는 너무나도 많은 장벽이 있는 것도 사실이다.
힘의 문제
전술한 바와 같이, 힘을 가진 이들이 이토록 확산력이 높은 기술이라는 미디엄을 타고 그 힘을 더욱 키울 수 있는 환경이 마련돼 있다. 생성 AI만 해도 OpenAI와 마이크로소프트의 힘이 아주 커질 것으로 전망된다. 산업 전반에서 중요하게 역할을 해내는 몇몇 태스크만 차지해도, 사람들의 피드백과 데이터를 끌어 모아 더 나은 기술로, 더 편한 서비스로 발전시킬 수 있는 플라이휠을 돌릴 수 있다. 그런데 기술 기업의 특성상, 혹여 잘못된 판단이 나오거나 이에 대한 전반적인 감시를 하고 싶어도, 기업 외부인이 데이터를 들여다보거나 알고리즘을 뜯어보는 일은 기밀 침해와 같은 이유로 쉽지 않다. 힘을 가진 기업의 자체적인 윤리에 대한 노력이 필요하지만, 그것만 바라볼 수는 없는 노릇이다. 오히려 빅테크를 중심으로 윤리팀을 해체시키거나 주요 인물을 해고하는 등의 일도 심심찮게 발생하고 있다.
물론 빅테크 기업들을 견제하는 수단으로 데이터 오너십과 프라이버시에 대해서 강력하게 규제를 하는 국가들도 속속 나오고 있다. 대표적인 곳이 EU다. 이미 GDPR(General Data Protection Regulation, 2018년 발효)을 통해 개인 데이터를 무단으로 수집하는 것을 방지하고, 사용자들이 스스로 데이터에 대해 컨트롤을 할 수 있도록 정하는 강력한 규제를 내보냈다. 최근 챗GPT가 학습한 데이터 및 다시 피드백으로 받아가는 데이터에 대해 문제제기하기 시작한 곳도 EU 가입국들이다. 뿐만 아니라 미국과 한국을 비롯한 여러 나라에서도, AI 서비스의 파급력에 대해 충분히 학습하고 이에 대한 규제와 오남용 방지책을 살펴보고 있다.
국가적 규제도 필요하지만, 시민사회단체들의 감시체계 작동 또한 매우 중요하다. ‘정치하는 엄마들’의 포털 사이트 검색결과에 대한 모니터링 및 액션 사례는 국내 시민단체의 대표적인 사례가 아닐까 싶다. 일반적인 단어에 대해서도 성적 게시물이 필터링되지 않고 나오는 것을 일일이 모니터링해 포털 업체들과 정부에 시정을 요구해 빠르게 문제를 해소해가고 있다. 기술 발전과 규제 사이에서 이론이 분분하지만, 분명한 건, 인간 사회에서 큰 패러다임 전환을 하게 될 AI 기술에 대해 충분한 검토와 의견의 개입이 있어야 한다는 점이다.
기준의 문제
AI 윤리 문제와 관련해 가장 많이, 치열하게 고민되는 부분은 바로 이 AI의 결과물을 둘러싼 기준에 대한 문제다. 이 논의는 특히 2018년 젠더셰이드 논문1)을 기점으로 불이 붙었다. 결국 인간이 만들어낸 데이터셋을 학습한 인공지능 알고리즘은, 다수의 사람들이 지닐 법한 편견이나 편향을 그대로 학습할 것이라는 논리가 굳어졌고, 이로 인해 알고리즘의 아웃풋이 사람들에게 도로 치우친 생각과 관념을 주입하게 될 것이라는 우려가 증가했다. 이후 알고리즘 모델을 만들 때는 모델의 데이터셋에 대한 설명과 모델을 만든 목적 등을 상세하게 기재하도록 하는 움직임(Model Card)2) 이 나왔고, 새로운 모델에 대한 학술 논문들에는 어떻게 모델의 편향성을 낮추려는 노력을 했는지에 대한 내용이 탄소배출량 표기와 함께 포함되기 시작했다.
그러나 여전히, 편향이나 거짓정보, 폭력적인 내용에 대해 그 기준을 정할 것이냐에 대해서는 논의가 끊이지 않고 있다. 가령 얼마 전 가디언 연구팀이 지적한 바와 같이, AI 이미지 분류 모델의 선정성 점수에 대해, 남성의 상의 탈의는 선정적이지 않지만 여성 속옷이 등장하면 급속도로 선정성 점수가 올라가는 것이 대표적인 사례일 것이다. 여러 알고리즘 모델의 기저에 여성 대상화가 강력하게 작동하는 바람에, 임산부의 배도 여성의 나체로 판단돼 유해 콘텐츠가 되어버리는 것이다.
뿐만 아니라 문화적 맥락에 대해서도 다양한 이슈가 발생할 수 있다. AI Ethics 분야의 저명한 학자인 최예진 교수(University of Washington)는 자연어로 정비된 규범집(Commonsense)을 학습시켜 기계(로봇)의 윤리 이슈를 해소하고자 하는 실험을 진행했는데3) , 서울대에서 진행했던 한 대담에서 그는 규범집의 유무 여부가 로컬화를 비롯한 여러 문화적 맥락 적응에도 매우 중요한 요소가 될 것이라고 설명한 바 있다. 자율주행차의 트롤리 딜레마에 대해 문화권에 따라 각기 다른 선택을 한다는 연구4)도 이미 널리 알려져 있다.
다양한 배경의 사람들이 데이터 작업부터 알고리즘 설계, 서비스 디자인과 제공, 그리고 모든 이해관계자의 레이어에 포함돼야 한다는 주장은 그래서 더욱 힘을 얻어가고 있다. AI 기술이 궁극적으로 사람들의 삶에 깊숙이 들어와 작동하게 되는 상황인 만큼, 더 많은 사람들이 기술을 자꾸만 써 보고, 암호를 풀듯 문제점을 자꾸만 발견해가야 한다. AI 리터러시의 증대도 같은 관점에서 늘 나오는 주제다. 기술 자체는 갈수록 플랫(Flat)해지고 있다. 활용과 개발의 문턱이 점점 낮아지고 있기 때문에, 더 많은 사람들이 참여할 수 있는 폭도 넓어지고 있다. 이제부터는 속도의 문제다. 특정 가치관과 힘의 논리에 모든 기술과 상호작용이 좌우되기 전에, 다양한 이들이 빠르게 움직여야 한다.
참고자료
1) Buolamwini & Gebru (2018). Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. FAT* ’18. AI 안면 인식 서비스가 인종과 젠더에 따라 각기 다른 정확도를 보인다는 내용. 실험 결과, 백인 남성에 대해 서비스가 높은 정확도를 보이는 데 비해 흑인 여성에 대해서는 상대적으로 낮은 성능을 보였다
2) Mitchell et al. (2019) Model Cards for Model Reporting. FAT*’19.
3) Zellers et al. (2018) Swag: A large-scale adversarial dataset for grounded commonsense inference. Arxiv, 2018.
4) Gold et al. (2014) Cultural differences in responses to real-life and hypothetical trolley problems. Judgment and Decision making, 2014.
* 페이지 하단에 발표 자료가 첨부되어 있습니다.
#AI윤리포럼요약문 #인공지능윤리를묻다