
디자이너가 생성 AI를 처음 만났을 때
2022년 4월 7일 AI커뮤니티 오픈 채팅에 텍스트 그대로 이미지로 구현해주는 텍스트 투 이미지(Text to Image) AI 달리 2(DALL·E 2)가 소개되었다. 오픈AI(Open AI)에서 4월 6일 발표했으니 하루가 채 지나지 않아서이다. 글로 표현하는 그대로 그림으로 나타내주는 AI, 글로 쓰는 상황묘사의 맥락에 맞게, 지정하는 스타일로 이미지를 무한 생성해 내는 AI는 누가 봐도 놀라운 것이었다. AI 커뮤니티의 채팅방에는 하루가 멀다고 새로운 기술들이 소개되지만, 이날은 달랐다. 달리 2를 소개한 지 이틀만인 4월 9일, 커뮤니티 운영자는 달리 2와 텍스트 투 이미지 기술 관련 사례를 공유하고 어떤 방법으로 달리 2가 구현되었는지 소개하는 긴급 세미나를 열었다. 이례적인 일이었다.

@ https://openai.com/dall-e-2/
그동안 문자 그대로 이미지로 바꾸어주는 AI가 없었던 것은 아니다. 오픈 AI는 달리 2를 발표하기 전 2021년 12월에는 글라이드(GLIDE)라는 이름의 텍스트투이미지 서비스를 발표했다. 그보다 앞선 2021년 2월에는 달리 1을 발표했다. 1년 2개월 동안 오픈AI는 스스로와 경쟁하듯이 새로운 버전을 업데이트했고, 달리 2의 성능에 사람들은 반응하기 시작했다. 이미지를 다루는 AI 기술이 상상을 글로 표현하는 것 만으로도 그림을 그려낼 수 있는 시대가 열렸다. 2016년 한국고용정보원의 조사에 의하면 인공지능으로 대체할 확률이 낮은 직업 1위는 화가 및 조각가였다. 감성에 기초한 예술 관련 직업은 자동화 대체 확률이 매우 낮을 것이라는 의견이었다.

@ 대한민국 정책 브리핑
달리 2 발표를 계기로 이미지 생성 AI는 어떤 임계점을 넘은 듯 했다. 달리 2는 달리 1에 비해 해상도가 4배 높아져 보다 현실적이고 정확한 이미지를 생성해 낸다. 게다가 신청자들에게 API를 오픈함으로써 AI 커뮤니티 연구자 중 API를 받은 몇몇 사람들은 달리 2를 가지고 놀며 점점 완성도가 높은 그림 또는 사진을 생성해 내었다. 그들이 생성한 이미지는 SNS와 채팅방을 통해 빠르게 확산되면서 많은 사람이 달리 2의 API를 갖고 싶다는 욕망을 품게 했다.
2022년 7월 13일 오픈 AI로부터 달리 2에 초대한다는 메일을 받았다. 4월 7일 AI 커뮤니티에서 달리 2에 대해 듣고 바로 API를 신청한 지 3달이 지난 후였다. 달리 2를 손에 넣은 소수의 사람이 되었다는 기쁨도 잠시, 약 1주일 후인 7월 21일 달리 2는 베타 서비스를 시작했고, 시작과 함께 100만 명을 초대하겠다고 발표했다. 기존 API 사용자가 무료로 이미지를 생성하던 것과 달리 첫 달 50 크레딧, 그다음 달부터는 월 15 크레딧을 무료로 제공하며, 월 15달러로 115 크레딧을 사용할 수 있는 유료 서비스를 시작했다. 대신 상업적인 사용을 허용했는데, 이미지를 출력하거나, 판매하고 상품화할 수 있는 매우 파격적인 조건이었다. API 신청 후 여러 달 걸리던 대기기간도 3일 정도로 단축되었다.
2022년 5월 24일에는 구글리서치의 브레인팀은 이매젠(Imagen)을 공개했다. 구글리서치에 따르면 사람을 대상으로 한 평가에서 오픈AI의 달리 2에 비해 선호도가 높은 이미지를 생성해 낸다고 한다. 하지만 이매젠의 상세 코드나 API는 대중에 공개하지 않기로 결정했다. 이미지 투 텍스트 서비스의 성능이 악용될 가능성이 있다고 판단했기 때문이다. 7월에는 초현실적인 그림을 그려내는 미드저니(Midjourney)가 클로즈드 베타버전으로 공개됐다. 7월 20일부터는 누구나 디스코드에 입장해서 이미지를 생성할 수 있다. 디스코드를 사용함으로써 다른 사람들이 실시간으로 생성하고 있는 문장과 그림을 동시에 확인하는 것이 가능하다. 미드저니는 달리 2에 비해 더 극적이고, 초현실적인 이미지를 만들어 낸다는 평을 받는다. 하지만 현재까지 이미지 투 텍스트 AI 경쟁에서는 오픈AI가 승리한 것으로 보인다. 이후에 발표되는 새로운 서비스들은 모두 달리 2를 언급하며 저마다의 강점을 알리고 있다.
이전까지 이미지를 다루는 AI가 신기하고 재미있다는 정도였다면, 달리 2의 기술은 놀라울 정도로 성숙되어서 해상도나 표현된 이미지의 퀄리티가 사람을 대체할 수 있는 수준이었다. 문장으로 그림을 그리듯이 묘사하고, 스타일을 지정해주면 그대로 그림으로 구현하였다. 유화를 팝아트 스타일로 바꾸고 싶으면 팝아트 스타일(pop art style)이라고 입력만 해 주면 됐다. 작가를 지정할 수도 있다. 앤디워홀 스타일, 모네 스타일 등. 달리 2는 그대로 여러 개의 시안을 보여주었다. 마치 카메라가 발명된 후 기록용 그림이 사진으로 대체되기 시작한 것처럼, AI의 빠른 이미지 제작 속도는 디자이너와 아티스트가 따라가기 어려운 수준이 되었다. 나는 AI 커뮤니티에서 디자이너로서는 가장 먼저 API를 받아서 멋진 작품을 보여줄 것이라는 기대를 모았지만, 결과는 처참했다. 그동안 달리 2를 가지고 놀던 연구자들의 그림 퀄리티와 달리 내가 만든 이미지들은 아주 초보적인 수준이었다. 작가의 의도에 맞는 결과가 나오려면 고민과 연습이 필요했다.

@ https://openai.com/dall-e-2/
오픈AI는 달리 2를 소개하는 페이지에 달리 2로 인해 사람들이 자신들의 창의성을 더 잘 나타낼 수 있게 되길 바란다고 써놨다. 디자이너보다 더 빨리 이미지를 만들어내는 AI에 대체되지 않고 도움을 받으려면 이 새로운 도구를 활용할 방안이 필요했다. 달리 2를 길들여야 했다. 디자인 전공자에게 주고 아무 계획 없이 가지고 놀게 해보기, 달리를 활용해서 디자인을 완성해 보기, 마지막으로 디자이너가 아닌 도메인 전문가에게 달리를 주고 활용방안을 찾게 해보았다. 마침 교대에서 융합교과목 강의를 하나 하고 있어서 초등학교 선생님을 대상으로 달리 2를 활용해서 초등 수업에 필요한 무엇인가를 계획해 볼 수 있었다.
첫째, 아무런 미션을 주지 않고 30분 정도 달리 2를 가지고 놀게 한 시각디자인을 전공 학생들은 AI 스스로의 자화상을 그려보게 하기도 하고, 게임 이미지들을 생성해 보기도 했다. 하지만 오픈 채팅에 있는 AI 연구자들만큼 집요하게 이미지를 생성해 내진 않았다. 기술에 대한 호기심으로 접근하는 그룹과, 그 기술로 인해 일자리를 위협받을지도 모르는 그룹이 새로운 기술을 대하는 태도는 다르게 느껴졌다. 기술이 전하는 충격이 너무 크고 그 기술을 잘 알지 못하면 조금은 전의를 상실하게 도는 걸까?
둘째, 시각디자인 전공 학생으로 이루어진 다른 그룹은 줌 회의에서 달리 2를 사용했다. 기존 아이디어 스케치를 보완하기 위해 상상하는 이미지를 문장으로 받아 이미지를 생성해 주었다. 달리 2가 생성한 이미지를 참고하여 4명의 학생이 2개씩 문장을 넣어서 32개의 레퍼런스를 생성해냈다. 아이디어 스케치에 참고할 만한 자료를 얻을 수 있었다. 달리 2를 사용하지 않을 때보다 사용했을 때 디자인 결과물이 향상되는 것이 명확하게 보였다.
셋째, 초등학교 선생님 그룹은 미드저니와 달리를 이용해볼 수 있었다. 달리를 사용할 수 있는 학습활동을 계획했다. 미술을 감상하거나, 역사적 사실을 이미지로 만들어 내거나, 미래 자신의 모습을 상상해 보거나, 동시를 이용해 그림을 그리는 활동 등을 기획했다. 선생님들이 돌아가면서 각 서비스를 간단하게 이용해보며 사용성 평가를 해본 결과, 이미지의 결과물보다 이미지를 생성해내기 위해 상황을 관찰하고, 관찰한 것을 글로 풀어내는 과정 자체에 교육적 효과가 있다는 데 의견이 모아졌다. 어떠한 장면을 묘사해서 그림을 표현해내는 과정이 학생들의 관찰력과 표현력을 향상시킬 수 있다는 기대가 생겼다.
달리 2를 처음 접했던 약 4개월 전에는 달리 2가 디자이너를 어느 정도 대처할 수 있을 것처럼 보였다. 하지만 간단한 세 가지 테스트만으로도 기술을 빠르게 접하고, 진지하게 고민하고 활용하고자 하는 사람에게 이미지 투 텍스트 기술은 훌륭한 조수가 될 수 있다는 확신이 들었다.
특히 디자이너가 달리 2를 사용하는 방법은 두 번째 그룹에서 가장 뚜렷하게 보였다. 디자인 레퍼런스와 소스를 생성해서 디자인을 만들어가는 과정에서 디자이너의 시간을 상당히 많이 단축해 줄 수 있겠다는 생각이 들었다. 아이디어를 내기 위해 학생들은 다양한 이미지를 검색하며 레퍼런스를 찾아보곤 하는데 이때는 아이디어를 얻는 대신, 디자인을 따라 하게될까 봐 걱정하곤 했다. 참고와 표절의 경계가 모호하기 때문에 좋은 레퍼런스를 찾은 만큼 그것을 피해서 새로운 아이디어를 내야 하는 노력이 필요했다. 디자인 회사의 경우 유료 소스 사이트를 계약해서 합법적으로 사용할 수 있는 이미지들을 구입해서 쓰기도 하는데 그 가격이 허용범위에 따라 매우 비싸기도 하다. 달리 2는 검색 사이트와, 소스 구매 사이트의 장점을 모아놓은 것 같은 느낌이다. 구체적인 문장으로 이미지를 생성해 낼 수 있고, 저작권이 오픈되어 있기 때문에 AI가 생성한 이미지를 그대로 사용해도 무방하다. 참고만 할 경우에도, 표절이 될까 봐 걱정할 필요가 없다. 오히려 클라이언트의 말을 구체적으로 시각화하여 무드 보드를 만들고 디자이너의 그래픽 편집 기술을 활용해 클라이언트의 니즈에 딱 맞는 결과물을 낼 수 있다. 이때 달리 2는 클라이언트와 디자이너 사이의 소통을 도울 수 있다.
누군가는 집요하게 가지고 놀면서 자신만의 작품세계를 구축할 수 있을 것이다. 초등학교 선생님들은 글로 그림을 그리는 게임을 통해 중요한 장면을 어린이들에게 더 깊게 각인시킬 수 있을 것이다.
연구자들의 달리 2 이미지 생성 실험과, 내가 만들 이미지들, 디자인과 학생들의 놀이와, 목적을 설정하고 달리 2를 사용해본 짧은 경험은 AI와 디자인 교육 방향에 대해 새로운 생각을 갖게 해주었다. 달리 2가 만들어내는 이미지들이 놀라울 정도로 훌륭하고 앞으로 더 성능이 좋아지겠지만 그 이미지를 사용하기 위한 기획과 활용, 최종 선택에는 사람이 있다는 점이다. 이때 달리 2는 사용자의 고민과 시간을 단축해주는 훌륭한 도구가 될 수 있다. 관찰력과 표현력을 더 날카롭게 만들어주는 러닝메이트 역할도 할 수 있을 것이다. 하지만 기술을 모르거나 외면한다면 기술을 활용하는 일반인에게조차 뒤처지는 상황이 올 것이다. 기술을 빠르게 접하고, 학생들이 진지하게 고민하고 활용할 수 있는 과제를 제시하기 위한 계획에 바로 착수했다.
* 본 글은 ESC 2022 과학적 글쓰기 과정에서 작성한 글입니다.

원종윤
동명대 시각디자인학과 교수 / AI메타버스교육센터장
"기술이 발전하는 곳에서 사람을 관찰하고 변화하는 사용자 경험을 바탕으로 문제를 정의합니다."
#인공지능윤리를묻다
디자이너가 생성 AI를 처음 만났을 때
2022년 4월 7일 AI커뮤니티 오픈 채팅에 텍스트 그대로 이미지로 구현해주는 텍스트 투 이미지(Text to Image) AI 달리 2(DALL·E 2)가 소개되었다. 오픈AI(Open AI)에서 4월 6일 발표했으니 하루가 채 지나지 않아서이다. 글로 표현하는 그대로 그림으로 나타내주는 AI, 글로 쓰는 상황묘사의 맥락에 맞게, 지정하는 스타일로 이미지를 무한 생성해 내는 AI는 누가 봐도 놀라운 것이었다. AI 커뮤니티의 채팅방에는 하루가 멀다고 새로운 기술들이 소개되지만, 이날은 달랐다. 달리 2를 소개한 지 이틀만인 4월 9일, 커뮤니티 운영자는 달리 2와 텍스트 투 이미지 기술 관련 사례를 공유하고 어떤 방법으로 달리 2가 구현되었는지 소개하는 긴급 세미나를 열었다. 이례적인 일이었다.
@ https://openai.com/dall-e-2/
그동안 문자 그대로 이미지로 바꾸어주는 AI가 없었던 것은 아니다. 오픈 AI는 달리 2를 발표하기 전 2021년 12월에는 글라이드(GLIDE)라는 이름의 텍스트투이미지 서비스를 발표했다. 그보다 앞선 2021년 2월에는 달리 1을 발표했다. 1년 2개월 동안 오픈AI는 스스로와 경쟁하듯이 새로운 버전을 업데이트했고, 달리 2의 성능에 사람들은 반응하기 시작했다. 이미지를 다루는 AI 기술이 상상을 글로 표현하는 것 만으로도 그림을 그려낼 수 있는 시대가 열렸다. 2016년 한국고용정보원의 조사에 의하면 인공지능으로 대체할 확률이 낮은 직업 1위는 화가 및 조각가였다. 감성에 기초한 예술 관련 직업은 자동화 대체 확률이 매우 낮을 것이라는 의견이었다.
@ 대한민국 정책 브리핑
달리 2 발표를 계기로 이미지 생성 AI는 어떤 임계점을 넘은 듯 했다. 달리 2는 달리 1에 비해 해상도가 4배 높아져 보다 현실적이고 정확한 이미지를 생성해 낸다. 게다가 신청자들에게 API를 오픈함으로써 AI 커뮤니티 연구자 중 API를 받은 몇몇 사람들은 달리 2를 가지고 놀며 점점 완성도가 높은 그림 또는 사진을 생성해 내었다. 그들이 생성한 이미지는 SNS와 채팅방을 통해 빠르게 확산되면서 많은 사람이 달리 2의 API를 갖고 싶다는 욕망을 품게 했다.
2022년 7월 13일 오픈 AI로부터 달리 2에 초대한다는 메일을 받았다. 4월 7일 AI 커뮤니티에서 달리 2에 대해 듣고 바로 API를 신청한 지 3달이 지난 후였다. 달리 2를 손에 넣은 소수의 사람이 되었다는 기쁨도 잠시, 약 1주일 후인 7월 21일 달리 2는 베타 서비스를 시작했고, 시작과 함께 100만 명을 초대하겠다고 발표했다. 기존 API 사용자가 무료로 이미지를 생성하던 것과 달리 첫 달 50 크레딧, 그다음 달부터는 월 15 크레딧을 무료로 제공하며, 월 15달러로 115 크레딧을 사용할 수 있는 유료 서비스를 시작했다. 대신 상업적인 사용을 허용했는데, 이미지를 출력하거나, 판매하고 상품화할 수 있는 매우 파격적인 조건이었다. API 신청 후 여러 달 걸리던 대기기간도 3일 정도로 단축되었다.
2022년 5월 24일에는 구글리서치의 브레인팀은 이매젠(Imagen)을 공개했다. 구글리서치에 따르면 사람을 대상으로 한 평가에서 오픈AI의 달리 2에 비해 선호도가 높은 이미지를 생성해 낸다고 한다. 하지만 이매젠의 상세 코드나 API는 대중에 공개하지 않기로 결정했다. 이미지 투 텍스트 서비스의 성능이 악용될 가능성이 있다고 판단했기 때문이다. 7월에는 초현실적인 그림을 그려내는 미드저니(Midjourney)가 클로즈드 베타버전으로 공개됐다. 7월 20일부터는 누구나 디스코드에 입장해서 이미지를 생성할 수 있다. 디스코드를 사용함으로써 다른 사람들이 실시간으로 생성하고 있는 문장과 그림을 동시에 확인하는 것이 가능하다. 미드저니는 달리 2에 비해 더 극적이고, 초현실적인 이미지를 만들어 낸다는 평을 받는다. 하지만 현재까지 이미지 투 텍스트 AI 경쟁에서는 오픈AI가 승리한 것으로 보인다. 이후에 발표되는 새로운 서비스들은 모두 달리 2를 언급하며 저마다의 강점을 알리고 있다.
이전까지 이미지를 다루는 AI가 신기하고 재미있다는 정도였다면, 달리 2의 기술은 놀라울 정도로 성숙되어서 해상도나 표현된 이미지의 퀄리티가 사람을 대체할 수 있는 수준이었다. 문장으로 그림을 그리듯이 묘사하고, 스타일을 지정해주면 그대로 그림으로 구현하였다. 유화를 팝아트 스타일로 바꾸고 싶으면 팝아트 스타일(pop art style)이라고 입력만 해 주면 됐다. 작가를 지정할 수도 있다. 앤디워홀 스타일, 모네 스타일 등. 달리 2는 그대로 여러 개의 시안을 보여주었다. 마치 카메라가 발명된 후 기록용 그림이 사진으로 대체되기 시작한 것처럼, AI의 빠른 이미지 제작 속도는 디자이너와 아티스트가 따라가기 어려운 수준이 되었다. 나는 AI 커뮤니티에서 디자이너로서는 가장 먼저 API를 받아서 멋진 작품을 보여줄 것이라는 기대를 모았지만, 결과는 처참했다. 그동안 달리 2를 가지고 놀던 연구자들의 그림 퀄리티와 달리 내가 만든 이미지들은 아주 초보적인 수준이었다. 작가의 의도에 맞는 결과가 나오려면 고민과 연습이 필요했다.
@ https://openai.com/dall-e-2/
오픈AI는 달리 2를 소개하는 페이지에 달리 2로 인해 사람들이 자신들의 창의성을 더 잘 나타낼 수 있게 되길 바란다고 써놨다. 디자이너보다 더 빨리 이미지를 만들어내는 AI에 대체되지 않고 도움을 받으려면 이 새로운 도구를 활용할 방안이 필요했다. 달리 2를 길들여야 했다. 디자인 전공자에게 주고 아무 계획 없이 가지고 놀게 해보기, 달리를 활용해서 디자인을 완성해 보기, 마지막으로 디자이너가 아닌 도메인 전문가에게 달리를 주고 활용방안을 찾게 해보았다. 마침 교대에서 융합교과목 강의를 하나 하고 있어서 초등학교 선생님을 대상으로 달리 2를 활용해서 초등 수업에 필요한 무엇인가를 계획해 볼 수 있었다.
첫째, 아무런 미션을 주지 않고 30분 정도 달리 2를 가지고 놀게 한 시각디자인을 전공 학생들은 AI 스스로의 자화상을 그려보게 하기도 하고, 게임 이미지들을 생성해 보기도 했다. 하지만 오픈 채팅에 있는 AI 연구자들만큼 집요하게 이미지를 생성해 내진 않았다. 기술에 대한 호기심으로 접근하는 그룹과, 그 기술로 인해 일자리를 위협받을지도 모르는 그룹이 새로운 기술을 대하는 태도는 다르게 느껴졌다. 기술이 전하는 충격이 너무 크고 그 기술을 잘 알지 못하면 조금은 전의를 상실하게 도는 걸까?
둘째, 시각디자인 전공 학생으로 이루어진 다른 그룹은 줌 회의에서 달리 2를 사용했다. 기존 아이디어 스케치를 보완하기 위해 상상하는 이미지를 문장으로 받아 이미지를 생성해 주었다. 달리 2가 생성한 이미지를 참고하여 4명의 학생이 2개씩 문장을 넣어서 32개의 레퍼런스를 생성해냈다. 아이디어 스케치에 참고할 만한 자료를 얻을 수 있었다. 달리 2를 사용하지 않을 때보다 사용했을 때 디자인 결과물이 향상되는 것이 명확하게 보였다.
셋째, 초등학교 선생님 그룹은 미드저니와 달리를 이용해볼 수 있었다. 달리를 사용할 수 있는 학습활동을 계획했다. 미술을 감상하거나, 역사적 사실을 이미지로 만들어 내거나, 미래 자신의 모습을 상상해 보거나, 동시를 이용해 그림을 그리는 활동 등을 기획했다. 선생님들이 돌아가면서 각 서비스를 간단하게 이용해보며 사용성 평가를 해본 결과, 이미지의 결과물보다 이미지를 생성해내기 위해 상황을 관찰하고, 관찰한 것을 글로 풀어내는 과정 자체에 교육적 효과가 있다는 데 의견이 모아졌다. 어떠한 장면을 묘사해서 그림을 표현해내는 과정이 학생들의 관찰력과 표현력을 향상시킬 수 있다는 기대가 생겼다.
달리 2를 처음 접했던 약 4개월 전에는 달리 2가 디자이너를 어느 정도 대처할 수 있을 것처럼 보였다. 하지만 간단한 세 가지 테스트만으로도 기술을 빠르게 접하고, 진지하게 고민하고 활용하고자 하는 사람에게 이미지 투 텍스트 기술은 훌륭한 조수가 될 수 있다는 확신이 들었다.
특히 디자이너가 달리 2를 사용하는 방법은 두 번째 그룹에서 가장 뚜렷하게 보였다. 디자인 레퍼런스와 소스를 생성해서 디자인을 만들어가는 과정에서 디자이너의 시간을 상당히 많이 단축해 줄 수 있겠다는 생각이 들었다. 아이디어를 내기 위해 학생들은 다양한 이미지를 검색하며 레퍼런스를 찾아보곤 하는데 이때는 아이디어를 얻는 대신, 디자인을 따라 하게될까 봐 걱정하곤 했다. 참고와 표절의 경계가 모호하기 때문에 좋은 레퍼런스를 찾은 만큼 그것을 피해서 새로운 아이디어를 내야 하는 노력이 필요했다. 디자인 회사의 경우 유료 소스 사이트를 계약해서 합법적으로 사용할 수 있는 이미지들을 구입해서 쓰기도 하는데 그 가격이 허용범위에 따라 매우 비싸기도 하다. 달리 2는 검색 사이트와, 소스 구매 사이트의 장점을 모아놓은 것 같은 느낌이다. 구체적인 문장으로 이미지를 생성해 낼 수 있고, 저작권이 오픈되어 있기 때문에 AI가 생성한 이미지를 그대로 사용해도 무방하다. 참고만 할 경우에도, 표절이 될까 봐 걱정할 필요가 없다. 오히려 클라이언트의 말을 구체적으로 시각화하여 무드 보드를 만들고 디자이너의 그래픽 편집 기술을 활용해 클라이언트의 니즈에 딱 맞는 결과물을 낼 수 있다. 이때 달리 2는 클라이언트와 디자이너 사이의 소통을 도울 수 있다.
누군가는 집요하게 가지고 놀면서 자신만의 작품세계를 구축할 수 있을 것이다. 초등학교 선생님들은 글로 그림을 그리는 게임을 통해 중요한 장면을 어린이들에게 더 깊게 각인시킬 수 있을 것이다.
* 본 글은 ESC 2022 과학적 글쓰기 과정에서 작성한 글입니다.
원종윤
동명대 시각디자인학과 교수 / AI메타버스교육센터장
"기술이 발전하는 곳에서 사람을 관찰하고 변화하는 사용자 경험을 바탕으로 문제를 정의합니다."
#인공지능윤리를묻다