도서
item

미디어 인공지능 : 영상 분야의 딥러닝 활용을 중심으로

저자 : 박대민
발행일 : 2024-05-13
ISBN-13 : 979-11-91812-69-5
판형 : 신국판
페이지수 : 416 쪽
판매가 : 22,000 원

 

이 책은 언론과 방송 등 미디어 분야의 연구, 교육, 실무 차원에서 AI 전환(AI transformation, AIX)을 촉진하기 위해 작성됐다. 이를 위해 다음과 같은 세 가지 측면을 염두에 두었다.
첫째, 기존의 AI 기술 서적은 대부분 미디어 분야와 무관하게 작성되어 있었다. 사실 AI 연구자들이나 규제 당국은 미디어에 대해 관심이 없었다. 반대로 언론사 역시 AIX에 관심을 갖고 있지만, 몇몇 해외 언론사를 제외하고 이를 전면적으로 실행하는 경우는 많지 않았다. 이 책은 미디어 분야의 AI 활용을 하나의 응용 분야로 제시하기 위해 미디어 AI이라는 용어를 제시하고, 미디어 AI로 포괄할 수 있는 핵심 기술을 설명했다. 기술적 부분 외에도 AI 연구에서 다소 추상적인 수준 또는 기술 일반 수준에서만 논의되고 있는 설명 가능한 AI(eXplainable AI, XAI)나 신뢰할 수 있는 인공지능(trustworthy AI, TAI), 멀티모달 AI에 대한 논의를 저널리즘 AI이나 대중문화 등 미디어 영역에서 집중적으로 살펴보았다.
둘째, 그동안 미디어 커뮤니케이션 학계나 업계에서는 딥러닝이 주로 텍스트를 대상으로, 기술적으로는 자연어처리 측면에서 다뤄져 왔다. 그 결과 분석 대상이 기사나 커뮤니티, 댓글 중심으로 이루어져 왔다. 이 책은 텍스트보다는 영상 분야, 즉 컴퓨터 비전(computer vision)의 딥러닝에 무게를 두고자 했다. 이를 통해 기존의 텍스트 중심의 딥러닝 활용 연구를 영상, 특히 동영상 분야로 확대하는데 도움이 되길 기대한다.
미디어 분야에서 컴퓨터 비전 관련 딥러닝 기술은 다음과 같은 측면에서 다루었다. 우선 미디어 AI의 주요 과업(task)을 정의하고, 기술적 측면에서 판별 모델은 합성곱 신경망(convolutional neural network, CNN), 생성 모델은 멀티모달 AI, 특히 스테이블 디퓨전(Stable Diffusion)을 중점적으로 다루었다. 이밖에 기존 기술 서적이 소홀히 하고 있는 AI 학습데이터 구축에 대한 내용을 특히 방송 동영상과 관련해 상술했다. 미디어 생산물은 특히 컴퓨터 비전 분야 학습데이터의 원천데이터로서 가치가 높기 때문이다.
셋째, 이 책은 교양서와 기술서 간의 간극을 메우고자 했다. 이를 통해 AI에 대한 지식이 전혀 없는 독자가 인공지능의 개념에서 시작해 컴퓨터 비전 분야 딥러닝의 전반적인 내용까지 이해하는데 도움을 주고자 했다. 미디어 커뮤니케이션학 분야에서 양적 접근을 하지만 컴퓨터 비전 분야 딥러닝은 낯선 양적 연구자는 물론, 학부생이나 대학원생을 비롯한 인문사회계 학생이나 기술적 이해를 바탕으로 AI에 비판적 연구를 수행하는 문화연구자, 그리고 컴퓨터공학을 전공하지 않은 언론사 기자나 방송사 프로듀서, 미디어 스타트업에 종사하는 비전공자 등 미디어 업계의 다양한 종사사, 미디어 관련 정책 담당자가 이해할 수 있도록 서술하고자 했다.
개발자들은 유튜브나 기술 블로그의 글, 오픈 액세스(open access) 논문 데이터베이스인 아카이브(arXiv) 등에 공개된 논문, 깃허브 등에 오픈소스로 올라온 내용, 쉽게 쓰인 다양한 개론서들을 통해 누구나 AI를 쉽게 공부할 수 있다고 말한다. 문제는 이러한 문서조차 AI에 입문하는 인문사회계 연구자에게는 너무나 많다는 것이다. 인문사회과학 전공자들이 AI 기술을 조금이라도 깊이 있게 공부하려고 해도 어디서 시작하고 어느 방향으로 나아가야 할지 막막하기만 하다. 쉽게 쓰인 개론서라고 해도 인문사회계 전공자들은 수식과 코드에 지레 겁을 먹게 되어 핵심 원리 파악에 어려움을 겪는다. 게다가 개론서조차 그 양이 방대하다. 반대로 교양서는 포괄적이기는 하나 기술에 대한 깊이 있는 이해를 얻기에는 어려움이 있다. 뿐만 아니라 교양서의 수많은 사례들도 금세 시의성을 잃고 만다. 인문사회과학 전공자가 보기에 교양서와 기술서 간의 간격이 큰 셈이다.
이 책은 AI에 관련된 교양서와 달리 좀 더 학술적인 관점에서 방향타를 제시할 수 있도록 작성했다. 딥러닝 분야의 방대한 성과를 최대한 간결하게 서술하도록 노력했으며 원리 중심으로 서술하고 사례는 독자의 이해를 돕는 수준에서 대표적인 것 위주로 절제해 기술했다. 소스 코드는 완전히 배제했으며 수식 사용도 최소화했다. 대신 이 분야에서 널리 인용되는 주요 논문이나 단행본은 참고문헌에 충분히 담고자 했다.
이 책을 출발점으로 추가 연구를 통해 양적 연구자는 딥러닝 기반 방법론을 정교화할 수 있을 것이다. 비판적 연구자는 기술 이해를 바탕으로 AI에 대한 적확한 진단을 내릴 수 있을 것이다. 미디어의 AIX가 어려운 것은 미디어 종사자들과 미디어 정책 담당자들이 AI에 대한 이해도가 낮기 때문일 수 있다. 언론인이나 방송인은 기술적 이해를 바탕으로 기획자로서 개발자와 협업하여 인간 중심 AI(human-centered AI)를 설계하고 비판적으로 운영, 고도화하는데 도움이 되기를 기대한다. 학생들은 미디어 AI 관련 연구자나 실무자로 성장하는 기반 지식을 얻을 수 있을 것이다.

이 책의 구성은 서론인 1장과 요약 및 제언에 해당하는 15장을 제외하면 크게 네 부분으로 나눌 수 있다.
첫 번째 부분은 2장부터 7장까지로, 세부적으로는 2장부터 4장까지는 인공지능에 대한 기본적인 이해를 다루며 인문사회계 학부 교양 수업 수준에 적합하다.
5
장부터 7장까지는 컴퓨터 비전 분야의 딥러닝에 대한 이론을 전반적으로 다룬다. 미디어 커뮤니케이션 학부 전공 수업에서 공부할만 하다.
두 번째 부분은 실제 AI 학습데이터를 구축하고 모델을 개발하고 이를 평가하는 방법을 서술하는 부분으로 8장과 9장에 해당한다. 미디어 커뮤니케이션 학부 전공 고학년 수준에서 소화할 것으로 기대한다.
세 번째 부분은 10장과 11장으로 미디어 AI에 초점을 두고 AI 학습데이터와 모델 개발을 설명한다. 실제 모델을 개발하는 대학원생, 연구자, 실무자가 참고할 수 있는 내용이다.
네 번째 부분은 12장부터 14장까지로 미디어 AI의 가치를 다룬다. AIX을 추진하는 미디어 조직의 의사결정권자나 관련 정책 담당자, 비판적 접근을 하는 연구자에게 참고가 될 수 있을 것이다.
각 장별로 내용을 좀 더 소개하면 아래와 같다.
2
장은 컴퓨터 비전과 딥러닝의 기본 개념을 살펴본다. 1절은 AI, 기계학습, 딥러닝의 개념과 유형을 다룬다. AI 개념에서는 튜링테스트(turing test)와 중국어 방(Chinese room) 논증을 설명한다.
2
절에서는 디지털 영상의 개념, 디지털 영상의 함수 표현, 그리고 디지털 영상 처리(digital image processing)의 과업인 영상 변환(image transformation), 영상 분석(image analysis), 영상 인식(image recognition) 등을 살펴본다.
3
장에서는 AI 학습데이터의 개념과 영상 분야 AI 학습데이터의 유형을 기술한다. 가장 기본적이고 중요한 AI 학습데이터 유형은 직사각형 형태의 바운딩박스(bounding box)이다. 이미지넷(ImageNet), COCO(Common Objects in Context) 등 컴퓨터 비전 분야의 주요 벤치마크 데이터세트도 소개한다.
4
장에서는 딥러닝 이전의 인공신경망을 다룬다. 구체적으로는 단순선형회귀(simple linear regression), 다중선형회귀(multiple linear regression), 로지스틱 회귀(logistic regression)를 인공신경망으로 표현한 단층퍼셉트론(single layer perceptron), 다층퍼셉트론(multilayer perceptron)으로 이어지는 발전을 살펴본다. 최적화(optimization), 손실함수(loss function), 활성함수(activation function), 경사 하강법(gradient descent), XOR 문제와 해결, 오차역전파(error backpropagation), 기울기 소실(gradient vanishing) 문제 등 딥러닝을 이해하는데 필수적인 기본 개념을 소개한다.
5
장에서는 판별 모델인 합성곱 신경망의 개념과 구조, 발전을 살펴본다. 또한 알렉스넷(AlexNet)에서 시작하여 미디어 AI에 유용한 실시간 객체탐지 모델인 YOLO(You Only Look Once)와 다중객체추적(multi object tracking, MOT)까지 합성곱 신경망의 발전을 간략히 훑어본다.
6
장에서는 생성 모델인 순환신경망(recurrent neural network, RNN), 적대적 생성 신경망(generative adversarial network, GAN), 오토인코더(autoencoder)의 개념과 구조, 발전을 간략히 살펴본다.
7
장에서는 최근 각광받는 전이학습(transfer learning)과 멀티모달 AI를 살펴본다. 특히 오토인코더와 결합한 잠재 확산 모델(latent diffusion model)인 스테이블 디퓨전을 중심으로 소개할 것이다.
8
장에서는 AI 학습데이터의 설계, 수집, 전처리, 가공, 검수 등의 과정을 설명한다. 또한 AI 학습데이터 구축에 필요한 저작도구로서 블랙올리브 사례를 소개한다. 이어 AI 모델의 기획, 준비, 개발, 활용을 단계별로 살펴본다.
9
장에서는 AI 학습데이터의 데이터 품질 평가와 AI 모델의 성능 평가 문제를 다룬다. 또한 데이터 품질과 밀접한 관계가 있는 AI 학습데이터의 표준화 문제도 다룬다. AI 학습데이터는 비정형 데이터를 포함하고 있어서 기존의 데이터 표준화와는 다른 접근이 필요하다. 이어 데이터 품질 평가와 모델 성능 평가에 활용되는 평가 지표들을 소개한다. 특히 F1 점수(F1 score), mAP(mean average precision)와 같은 판별 모델의 성능 평가 지표와 함께 재현율(recall)과 정밀도(precision)를 활용한 생성 모델의 성능 평가 지표도 소개한다.
10
장에서는 한국지능정보사회진흥원의 AI허브에 공개된 방송 동영상 활용 AI 학습데이터를 소개한다. 특히 방송 동영상과 유튜브 동영상을 원천데이터로 활용해 학습데이터를 구축해 공개한 8종의 데이터세트 중 7종에 대해 데이터 표준화를 수행하고 정리한 수량을 제시한다.
11
장에서는 방송 분야의 미디어 AI에서 중요한 과업들과 활용 가능한 모델을 소개한다. 또한 실무와 연구 차원에서 미디어 AI의 활용 사례와 활용 절차를 살펴본다.
12
, 13장은 미디어 AI가 저널리즘의 핵심 문제를 어떻게 해결할 수 있을지를 탐색한다.
12
장에서는 설명가능한 인공지능에서 강조하는 투명성(transparency) 개념이 사실성 제도로서 언론의 위기 해결에 기여할 수 있는 바를 모색한다.
13
장에서는 신뢰할 수 있는 인공지능을 미디어 신뢰도 개선에 활용할 수 있는 방안을 고민한다. TAI는 특히 다양성 측면에서 공정성을 보완할 수 있을 것으로 기대된다.
14
장은 대중문화 측면에서 AI가 어떤 가치를 갖는지를 살펴본다. 특히 생성 AI는 사용자의 창작성을 증대시킨다. 더 나아가 대중문화의 가치론적 무게 중심을 창작성에서 사용자 커뮤니티의 심미적 경험으로 이행하는 과정을 가속화할 것이다.


===================================================================================================================================================================


감사의 글

 

이 책이 출간되기까지 학계와 업계에서의 여러 경험과 많은 이들의 가르침이 큰 도움이 되었다. 우선 저자가 2020년 매경미디어그룹 산하 KDX한국데이터거래소에 재직 당시 한국지능정보사회진흥원(National Information Society Agency ; NIA)인공지능 학습용 데이터 구축 사업 : 대용량 동영상 콘텐츠를 수행한 경험이 이 책의 바탕이 됐다. 저자는 해당 사업의 총괄 책임자로, 특히 실제 방영된 방송 동영상을 활용한 설계, 수집, 가공, 검수, 시범 서비스 기획, AI 모델 개발 등의 전 과정을 경험할 수 있었다. 당시 사업에 참여할 수 있도록 기회를 주신 박재현 전 KDX한국데이터거래소 대표님께 감사의 말씀을 올린다.

2장부터 9장까지의 내용은 2021년부터 선문대학교에 개설된 영상 미디어와 인공지능강의를 통해 많은 보완을 했다. 세 번의 강의에서 수강생들은 쉽지 않은 딥러닝 이론을 함께 공부하고 수많은 시행착오를 감내하며, 스테이블 디퓨전 실습을 따라왔다. 무엇보다 학생들의 참여로 책의 내용을 인문사회계 학부생의 눈높이에 조금이나마 맞도록 수정할 수 있었다. 고생한 학생들에게 고마움을 표한다.

AI 전문 기업 테스트웍스는 영상 미디어와 인공지능수업을 처음부터 공동 진행해 주었을 뿐만 아니라 이 책의 감수까지 맡아주었다. 특히 영상 관련 AI 학습데이터 저작도구 블랙올리브를 수업에서 무상으로 사용할 수 있게 지원하고 교육을 진행해 주었다. 뿐만 아니라 이 책의 독자들이 누구나 블랙올리브에 가입해 라벨링을 연습해 볼 수 있도록 블랙올리브를 고도화해 주었다. AI 학습데이터 관련 영상 및 저작도구 매뉴얼을 공유해 주기도 했다. 강의와 감수에 큰 도움을 주신 테스트웍스의 윤석원 대표님께 깊은 감사를 드린다.

스테이블 디퓨전 활용이나 생성 AI에 대한 정보 습득에는 페이스북 커뮤니티와 전문가들이 큰 도움을 주었다. 특히 스테이블 디퓨전의 활용에 대해서는 웹툰 작가로도 활동하시는 서승택 경일대학교 교수님의 도움이 컸다. 서 교수님이 운영하시는 페이스북 커뮤니티 컴피유아이 크리에이터스 코리아(ComfyUI Creators Korea)’에는 정제된 최신 교육 자료와 실무 예제가 가득하다.

미디어 인공지능(media artificial intelligence ; media AI)의 학습데이터와 과업, 모델을 다룬 10장과 11장의 내용은 한국언론학회 컴퓨테이셔널 방법론 연구회와 미디어 블록체인 & 스타트업 연구회의 정기학술대회와 세미나에서 다양하게 소개되었다. 연구회에서 함께 활동하며 조언과 격려를 아끼지 않았던 이종혁 경희대학교 교수님, 윤호영 이화여자대학교 교수님, 박노일 차의과대학교 교수님, 이성민 방송통신대학교 교수님, 유용민 전남대학교 교수님, 박찬경 경북대학교 교수님께 감사의 말을 올린다.

설명 가능한 인공지능(eXplainable Artificial Intelligence ; XAI)과 신뢰할 수 있는 인공지능(Trustworthy AI ; TAI)의 논의를 미디어 AI에 접목한 12장과 13장은 2023년 인공지능을 주제로 진행된 두 차례의 언론과사회기획세미나를 통해 발표되었고, 동명 저널에 게재된 논문을 바탕으로 하고 있다. 미디어 커뮤니케이션 분야에서는 무척 생소한 연구임에도 발표 기회를 주셨을 뿐만 아니라 좋은 평가를 해 주신 덕분에 저술에 큰 힘이 되었다. 당시 <언론과사회> 편집장을 맡으셨던 박진우 건국대학교 교수님, 두 번의 발표에서 모두 좌장을 맡아주신 박홍원 부산대학교 교수님, 그리고 토론과 심사를 맡아주신 여러 선생님들께 감사드린다.

14장에서 작성한 생성 AI가 대중문화에 미치는 영향에 대한 생각의 단초는 2023년 한국언론학회 가을철 정기학술대회 특별세션 ‘AI가 가져오는 창작의 민주화에서 얻었다. 당시 좌장을 맡아주신 이중식 서울대학교 교수님, 발표를 맡아주신 김재인 경희대학교 교수님, 오영진 서울과학기술대학교 교수님, 세션을 구성하는 데 도움을 주신 고문정 네이버 연구원님께 감사의 말씀을 드린다. 그 결과는 같은 해 한국방송학회 가을철 정기학술대회 대주제 세션에서 생성 인공지능은 대중예술 작품을 창작할 수 있는가라는 제목으로 발표됐으며, 이 책에 수정·보완해 추가했다.

끝으로 이 책은 2023년 방송문화진흥회 저술 지원을 받아 집필되었다. 이 책을 저술하는 데 지원해 주신 방송문화진흥회와 저자의 첫 단행본 출간에 많은 공을 들여 주신 율곡출판사에게도 감사를 드린다.

 

 

20245

 

박대민

CHAPTER 01 들어가며

CHAPTER 02 인공지능과 컴퓨터 비전

CHAPTER 03 인공지능 학습데이터

CHAPTER 04 인공신경망의 대두와 발전

CHAPTER 05 판별 모델 : 합성곱 신경망

CHAPTER 06 생성 모델 : 순환신경망, 적대적 생성신경망, 오토인코더

CHAPTER 07 전이학습, 멀티모달 인공지능

CHAPTER 08 인공지능 학습데이터 구축과 모델 개발

CHAPTER 09 인공지능 학습데이터의 품질 평가와 모델의 성능 평가

CHAPTER 10 미디어 인공지능 학습데이터

CHAPTER 11 미디어 인공지능의 모델과 활용

CHAPTER 12 설명 가능한 인공지능과 미디어 인공지능의 투명성

CHAPTER 13 신뢰할 수 있는 인공지능과 미디어 인공지능의 다양성

CHAPTER 14 생성 인공지능과 미디어 인공지능의 심미적 경험

 

CHAPTER 15 나가며 : 일반 인공지능과 미디어 인공지능