DALL·E

이 문서는 기계에 대해 다룹니다.
이 글에서는 공머생들이 좋아하는 기계가 나옵니다.
만약에 기계가 고장났을 땐 고물상에 가서 엿으로 바꿔 먹읍시다.

이 문서는 이과가 작성했거나, 또는 이과에 대해 다룹니다.
무슨 생각으로 작성한 건지는 잘 모르겠습니다만 맞는말임은 틀림 없습니다.
이과는 아다를 못 떼 마법을 쓰니까 말이죠...

OpenAI가 만든 이미지 생성 인공지능이다.

사용자가 글로 “이런 그림 그려줘”라고 말하면, 그걸 바탕으로 이미지를 만들어준다. 쉽게 말하면 키보드로 붓질하는 시대를 연 놈이다.

개요

DALL·E는 텍스트 설명을 바탕으로 이미지를 생성하는 AI 모델이다.

예를 들어 “우주복을 입은 고양이가 달에서 라면 먹는 그림”이라고 입력하면, 실제로 그런 이미지를 만들어낸다. 정상적인 인간 화가라면 의뢰자를 한 번 쳐다볼 만한 주문도 기계는 일단 그려본다.

이름은 살바도르 달리와 영화 《월-E》를 섞은 듯한 느낌이 강하다. 예술가와 로봇의 이름을 합친 것부터가 이미 “기계가 예술을 한다”는 시대정신을 대놓고 보여준다.

역사

DALL·E는 2021년에 처음 공개됐다.

당시에는 텍스트만 입력해도 그럴듯한 이미지를 만들어낸다는 점에서 꽤 충격을 줬다. 물론 지금 기준으로 보면 결과물이 좀 어설프기도 했지만, 그때는 “아니 이걸 기계가 한다고?”라는 반응이 많았다.

이후 DALL·E 2가 나오면서 이미지 품질이 크게 좋아졌고, 기존 이미지를 편집하거나 확장하는 기능도 주목받았다.

DALL·E 3에서는 ChatGPT와 결합하면서 사용성이 더 좋아졌다. 사용자가 대충 말해도 ChatGPT가 프롬프트를 다듬어주고, DALL·E가 그걸 이미지로 뽑아내는 식이다.

즉 옛날에는 주문서를 사람이 잘 써야 했는데, 이제는 주문서 쓰는 비서까지 붙은 셈이다.

특징

DALL·E의 핵심은 자연어를 이미지로 바꾸는 것이다.

전문적인 디자인 프로그램을 몰라도 된다. 포토샵 레이어가 뭔지 몰라도 된다. 그냥 말하면 된다.

물론 말한다고 다 잘 나오는 건 아니다. “멋있게 해줘” 같은 프롬프트는 AI에게도 난감하다. 인간 디자이너도 싫어하는 말인데 기계라고 좋겠는가.

DALL·E는 특히 이상한 조합을 이미지로 만드는 데 강한 인상을 남겼다.

아보카도 모양의 의자
우주비행사 말을 탄 사진
스테인드글라스풍 햄버거
사이버펑크 조선시대 선비
라면 먹는 용

이런 식의 말도 안 되는 조합을 그럴듯하게 만들어낸다. 인간의 상상력과 기계의 노동력이 이상한 동맹을 맺은 것이다.

장점

가장 큰 장점은 이미지 제작의 진입장벽을 낮췄다는 점이다.

그림을 못 그리는 사람도 콘셉트 이미지를 만들 수 있고, 디자이너가 아니어도 시안을 빠르게 뽑을 수 있다. 블로그 썸네일, 발표 자료 이미지, 캐릭터 콘셉트, 광고 시안, 게임 아이디어, 밈 제작 등에 활용할 수 있다.

특히 “머릿속에는 있는데 손으로 못 그리는 사람”에게 좋다. 인간의 뇌 속에 갇혀 있던 이상한 그림들이 드디어 탈옥할 수 있게 됐다.

또한 반복 수정이 쉽다. “조금 더 밝게”, “배경을 밤으로”, “인물을 작게”, “좀 덜 수상하게” 같은 식으로 말하면서 결과를 조정할 수 있다.

단점

문제도 많다.

우선 원하는 대로 정확히 나오지 않을 때가 많다. 손가락, 글자, 복잡한 구조, 정확한 로고, 특정 위치 관계 같은 것에서 삐끗할 수 있다.

예전 이미지 생성 AI들은 손을 특히 못 그려서, 사람 손가락이 갑자기 외계 생물처럼 늘어나곤 했다. AI가 인류를 지배하기 전에 손가락부터 다시 배워야 한다는 말이 괜히 나온 게 아니다.

또한 저작권 논란이 있다. AI가 어떤 이미지들을 학습했는지, 특정 작가의 스타일을 따라 하는 것이 어디까지 허용되는지, 생성된 이미지의 권리는 누구에게 있는지 논쟁이 계속된다.

여기에 가짜 이미지 문제도 있다. 현실에 없던 장면을 너무 그럴듯하게 만들 수 있기 때문에, 선전물, 사기, 허위정보, 조작 사진 등에 악용될 수 있다.

그림이 쉬워진 만큼, 속이기도 쉬워진 것이다.

저작권 논란

DALL·E 같은 이미지 생성 AI는 AI 저작권 논란의 중심에 있다.

창작자 입장에서는 자기 그림이 학습 데이터로 쓰였을 수 있다는 점이 불편하다. AI 회사 입장에서는 공개된 데이터를 학습하는 것이 기술 발전에 필요하다고 주장한다.

또 AI가 만든 이미지가 누구의 것인지도 애매하다.

프롬프트를 입력한 사람이 작가인가? 모델을 만든 회사가 권리를 갖는가? 학습 데이터의 원작자도 몫이 있는가? 아니면 그냥 아무도 작가가 아닌가?

이 질문은 아직 깔끔하게 정리되지 않았다. 인류는 기술은 빨리 만들고, 규칙은 늘 뒷북으로 만든다. 전통 있는 업보다.

ChatGPT와의 관계

DALL·E 3부터는 ChatGPT와의 결합이 큰 특징이 되었다.

사용자가 그림을 설명하면 ChatGPT가 더 자세한 프롬프트로 다듬고, DALL·E가 이미지를 생성한다. 그래서 사용자는 꼭 프롬프트 장인이 될 필요가 줄어들었다.

예전에는 “프롬프트 엔지니어링”이라는 이름으로 주문서 쓰기 대회가 열렸다면, 이제는 그냥 대화하듯이 이미지를 만들 수 있게 된 것이다.

다만 현재 ChatGPT의 이미지 생성 기능은 계속 바뀌고 있다. DALL·E는 이미지 생성 AI 시대를 대표하는 이름이지만, OpenAI의 최신 이미지 생성 모델 전체를 항상 DALL·E라고 부르는 것은 정확하지 않을 수 있다.

한때 “MP3 플레이어”를 다 아이팟이라고 부르던 시절이 있었듯이, DALL·E도 이미지 생성 AI의 상징명처럼 쓰이는 경향이 있다.

의의

DALL·E는 “그림은 그림 그리는 사람이 만드는 것”이라는 상식을 흔들었다.

물론 AI가 인간 예술가를 완전히 대체했다고 보기는 어렵다. 좋은 그림에는 여전히 기획, 감각, 맥락, 취향, 수정 능력, 책임이 필요하다.

하지만 초안 제작과 아이디어 시각화의 속도는 완전히 달라졌다.

옛날에는 콘셉트 하나를 보여주려면 스케치하거나 자료를 찾아야 했다. 이제는 말로 던지고 몇 초 뒤에 이미지를 본다.

이건 단순한 편의 기능이 아니라 창작 과정 자체의 변화다.

결론

DALL·E는 이미지 생성 AI의 대표주자 중 하나다.

텍스트를 이미지로 바꾸는 기술을 대중에게 강하게 각인시켰고, 이후 생성형 AI 붐의 시각 예술 쪽 상징이 되었다.

결국 DALL·E는 붓이 아니라 도구다. 문제는 언제나 그렇듯, 도구보다 그것을 쥔 인간 쪽에 더 많다.