송정희 박사 " TECH - AutoXML, 인공지능의 새 좌표를 열다."

PEOPLE365 작성
작성일 2021.09.01 16:25

조회
목록

TECH - AI와 AutoXML

AutoXML- 인공지능의 새좌표를 열다.

글 송정희 박사

인공지능 시대 도래 알린 ‘알파고’

2016년 이세돌 대 알파고 이벤트는 우리나라 전 국민이 단번에 인공지능 시대의 도래를 인식하게 되는 특별한 계기를 안겨주었다.‘알파고’는 영국의 천재 데비스 허사비스가 2010년에 창업하여 2014년 구글에 4억 달러에 인수된 ‘딥마인드’란 회사의 알파고 프로젝트로 탄생했다. 알파고는 2015년 유럽 바둑을 제패하였고, 2016년 3월에는 한국의 이세돌 9단과의 세기적 매칭 이벤트로 자신을 만천하에 알렸다. 2017년 5월에는 세계 1위 커제 등 중국 대표선수들을 전부 물리쳤으며, 그해 12월에는 ‘알파고 제로’로 새롭게 거듭나면서 수 천년 바둑계의 지존으로 자리매김했다. 이후에도 이 회사는 바둑을 넘는 보드게임용 인공지능 ‘알파 제로’를 출시했고, 스타크래프트 등 온라인게임에도 도전하며 범용 인공지능으로 계속 발전하고 있다. 특히, 2017년의 ‘알파고 제로’는 초급자 레벨을 3시간에 습득하고, 19시간 학습하면 고수의 수법을 학습할 수 있으며, 70시간이면 바둑 신의 경지에 도달했다고 한다.

알파고 제로로 인한 바둑계의 충격은 비록 3년 정도의 짧은 기간이었지만 실로 엄청난 후폭풍을 가져왔다. 당시 온라인게임에 밀리고 그들만의 리그로 밀려난 침체일로의 바둑계로서는 신비로운 느낌의 동양의 고수와 기계의 맞대결을 통해 새로운 바둑의 시장과 영역을 찾아갈 수 있었다. 사실 알파고 이전에도 컴퓨터 바둑 대전은 있었으며, 서양의 바둑인 체스게임의 경우 이미 1997년에 러시아 체스 세계챔피언 개리카스 파로프를 IBM의 슈퍼컴퓨터 딥블루가 인공지능(AI)을 써서 이겼던 사례도 있었다.

당시 ‘딥블루’의 하드웨어는 현재 애플 주류모델인 iphone 12 성능의 약 17%밖에 미치지 못하는 수준이었다. 하지만, 체스챔피언인 카스파로프는 약 10수를 앞서 보았던 반면에, 딥블루는 12수를 앞서 볼 수 있었다. 당시 만 해도 10수를 넘겨 모든 경우의 수를 계산한다는 것은 일반적인 AI 로직으로는 거의 불가능해 보였기에 카네기멜론대 연구진과 함께 한 IBM으로서는 큰 성과를 이루어낸 것으로 평가받고 있다.

딥블루급 인공지능 슈퍼컴퓨터와 비교하면 20여 년 이후 탄생한 알파고는 약 280개의 GPU 성능을 뽐내는 슈퍼컴퓨터로 진화했다. 바둑에서는 하늘의 별 숫자보다 많은 경우의 수가 있음에도 불구하고 인간과 제한된 시간 내 실시간 대결이 가능하게 된 핵심에는 딥러닝 인공지능 강화학습 알고리즘을 적용하여 30수 앞서 읽는 능력을 갖추기에 이르렀다.

즉 아무리 경우의 수가 많다 하더라도 고성능 하드웨어와 알고리즘의 발전으로 이를 극복할 수 있게 된 것이다. 최소한의 인간이 만든 법칙으로 학습이 가능한 영역에서는 시간과 자금만 충분히 투자된다면 인공지능으로 문제해결이 가능한 시대로 접어든 것이다. 다만, 인간이 만든 법칙을 넘어선 영역에서까지 인공지능의 효능이 과대 포장되고 잘못 사용될 위험이 커지고 있다. 이러한 상황에 대처하기 위하여 현재 인공지능의 사용에 대한 지침과 규제가 논의 및 도입되는 추세이다.

비정형 데이터 포함된 빅데이터,

AI 학습 입력에 사용

바둑 및 체스 사례에서 보듯이 하드웨어 성능의 핵심인 반도체 집적도 성능은 그 발전에 한계가 있다. 즉, 2년마다 2배로 증가한다는 “무어의 법칙”을 넘기가 어렵다. 반면에, 소프트웨어(SW) 분야는 획기적으로 발전하고 있으며, 심지어는 많은 하드웨어 영역이 SW로 대체 가능한 시대로 진화했다.

시가총액 기준 세계 최대 회사는 SW가 중심인 애플로, 2021년 시가총액 2,500조 원이 넘었다. 이 밖에도 마이크로소프트, 아마존, 구글, 페이스북 등 SW 중심의 회사들이 항상 상위권을 차지하고 있으며, 여기에 중국 ‘텐센트’와 ‘알리바바’가 가세하여 전 세계 많은 인공지능 벤처들을 사들이며 치열한 각축전을 펼치고 있다. 애플이 독자적 하드웨어와 SW를 다 품고 있고 자신의 SW를 위한 전용 하드웨어를 만든다면, 마이크로소프트와 구글은 SW가 중점이며 많은 하드웨어 파트너와 협력하고 있다는 점이 다를 뿐이다.

2010년부터 2020년 1분기까지 약 610억 달러의 AI 벤처 투자가 이루어졌는데, 대부분이 미국과 중국 벤처에 편중되어 있다. 벤처투자는 특히 AI로 전 산업의 전환을 촉진하는 기존시장 파괴적인 혁신기술에 집중하고 있으며, 미국과 중국의 무역 분쟁 핵심도 AI이고 우리 산업에 미치는 영향도 지대하다. 현재 AI 투자 동향은 뛰어난 AI 머신 자체보다는 구체적이고 실용적인 알고리즘을 적용하여 각 비즈니스 영역의 문제를 해결하는 데 관심의 초점이 모아지고 있다. 즉, 이미 구글이나 아마존 등이 개발한 AI API를 이용해서 각 비즈니스의 문제를 해결할 수 있으며, 자체 AI 시스템을 개발하지 않더라도 남다른 AI 적용 서비스를 즉시 제공할 수 있다. 단, 각자의 개별 비즈니스 데이터 구축 시 이들 범용 AI 머신을 사용함으로써, 결국에는 데이터의 주도권을 제한받을 위험성을 안고 있다.

전통적인 SW는 정형화된 데이터만 다룰 수 있었으나, 지금은 글, 이미지, 동영상, 소리 등의 비정형 데이터까지도 포함하여 디지털로 표현된 다양하고 큰 데이터를 다루는 데이터베이스 처리기술이 등장했다. 한 마디로, 빅데이터가 AI 학습의 입력으로 쓰이고 있다. 컴퓨터가 이 빅데이터를 학습하는 과정을 머신러닝이라 하고 인공지능의 성능을 좌우한다. 학습 과정으로 비유 하자면, 학생이 여러 가지 연습문제를 공부하여 정답과 오답의 차이를 이해하고, 유사문제가 나올 때 정답을 찾아내는 과정에 비유할 수 있다. 연습문제가 잘 정리되어 있으면 당연히 학습속도가 높아지기 마련이며, 문제지의 질은 학습데이터의 성패를 가른다. 좀 더 눈치 빠른 학생이라면 피드백을 도입하기도 하는 데, 학습 과정에서 답을 찾는데 별 지장을 주지 않는 문제지는 스킵하고 중요한 부분이나 필요한 부분은 더 집중한다. 나아가서, 빨리 답을 찾는데 보상을 하고 틀렸을 때는 감점을 주는 등 강화학습의 일환인 보상책을 활용하여 학습성능을 높일 수 있다. 이런 과정을 다양한 수학적 알고리즘으 로 AI 모형화하여 특정 영역의 최고를 만들어 내는 노력은 AI 연구자의 몫이다. 또한, 동일한 AI 알고리즘을 사용하더라도 훈련 데이터의 차별화로 더 좋은 성능의 서비스를 제공할 수 있다. 비록 선진 AI 기업 이 국가경쟁력이나 투자 이해관계를 이유로 자신의 최신 알고리즘 공개를 제한하기도 하지만, 또한 최신 알고리즘이 많이 공개된 상황이다. 학습데이터 역시 많은 SW 개발자와 데이터 연구자들의 노력에 힘입어 알고리즘의 공개가 늘어나는 추세다. 공공영역에서도 좋은 품질의 공공데이터를 개방하고 있으며, 최근에는 정부가 자금을 지원하여 많은 영역에서의 고품질 인공지능 학습용 데이터를 공개하기도 한다.

AutoXML 기술, AI 데이터 효율 증대와

AI 수준 격상에 기여

요즘 AI 인재 확보는 글로벌 전쟁을 방불케 하고 있다. AI를 만드는 컴퓨터공학 전공자뿐만 아니라 이에 관심을 가진 일반인들도 AI를 활용하고 이해하는데 동참하고 있다. 각국의 AI 학습데이터 확보와 활용은 미래 디지털의 쌀이라고도 불릴 만 큼 중요한 디지털 자원이다. 5년 전만 해도, 저장된 데이터는 사람이 직접 활용하기 위해서 수집, 가공 및 분석되었지만, 앞으로는 기계가 사용하고 처리할 데이터가 기하급수적으로 커 질 것이다.

또한, 미국이 지금까지 데이터 강국으로 자리 잡고 있었지만, 이제는 중국이 주도권을 쥐기 시작하면서, 연평균 증가율이 35.7%에 달하고 있고, 2025년에는 전 세계 빅데이터 총량 의 1/3을 차지할 것이라는 분석이 나왔다. 중국 내 관련 산업도 연 20% 이상 고성장할 것으로 예상되고, 이에 발맞추어 빅 데이터의 융합-결합, 신유통 적용, 데이터 보호, 표준-규범이 추진되고 있다. 반면에, 우리나라는 연평균 증가율 23.9%로 중국 빅데이터 규모의 1/10도 안 되는 규모로 진행되고 있어, 더 많은 표준기술 확보와 정부 지원이 요구되고 있다.

이런 방대한 데이터는 저장 공간의 확보와 처리도 중요하지만, 실제 수집된 데이터를 유용한 AI 학습에 활용하려면 상당한 가공의 노력이 필요하다. 빅데이터 분석의 90%가 사실상 고품질 데이터 가공에 있다고 해도 과언이 아니다.

아울러, 이들 디지털 자원을 표현하고 활용하는 방법으로 모든 기기에서 웹으로 표현하려는 W3C 표준에 맞춰야 한다. 단지 웹의 표현어인 HTML을 이용하는 것은 단순 텍스트로서 제한이 있고, 이를 확장한 XML이 2003년 이후 도입되어 다양한 용도의 문건을 포함할 수 있게 되었지만, XML도 여전히 비정형 데이터를 엮어 표출하는 데는 한계가 있었다.

실제로, HTML은 많은 수공이 필요하여 이를 자동 생성하는 AutoXML이란 제안도 W3C에서 널리 수용하고 있으며, 이 기술에 관한 전문성을 확보한 기업들도 AI의 한 부류를 차지하면서 성장하고 있다. 이런 현실에서 XML 문건에도 정형-비정형 데이터를 통합 표시하고 자동화하는 AutoXML 기술을 3KSoft 김영근 회장이 개발한 것은 놀라운 혁신이 아닐 수 없다. AutoXML은 웹상의 모든 자료를 기계언어로 변환하여 메타 언어화시켰다. 각기 다른 환경에서 생성된 모든 정형 및 비정형 데이터들이 파편화되는 기존 웹 기반 언어의 단점을 개선하여 인간이 축적한 빅데이터를 인공지능에 의해 정리·정돈하고 효율적으로 검색하고 분석하고 필터링도 할 수 있다. 즉 개인의 요구에 맞는 개인화된 검색이 가능하며, 누구나 쉽게 배울 수 있다. 또, 프로그래밍 과정 없이 자동 생성 엔진을 사용하여 XML 콘텐츠를 대량생산하고 블록체인과 빅데이터, 인공지능 등 다양한 분야에서 활용할 수 있다.

AutoXML 기술은 탈중앙화가 된 P2P 환경에서 실시간 BI(Business Intelligence)로 신속하게 전자상거래를 할 수 있고, 모든 산업 분야에 적용하여 업무의 효율성과 신속성을 높 일 수 있다. 세계 어디에서나 온라인으로 국제무역, 비즈니스, 개인 간의 상거래, 서비스 제공, 데이터 교환, 정산, 송금 지불 등을 할 수 있으며, 4차 산업혁명과 관련 기술을 접목시켜 모든 산업에 적용할 수 있다. AutoXML 기술의 광범위한 적용은 국내에서 생산된 AI 데이터 분야의 효율을 높이고, 나아가서 국내 및 전 세계 AI의 수준을 격상하는데 크게 기여할 것으로 기대된다.

송정희 박사는 서울대 전자공학과를 졸업하고 카네기 멜론대학교 대학원에서 전기컴퓨터공학 박사학위를 받았다. 삼성전자 전략기획실 부장과 정보통신부 IT 정책자문관을 거쳐 제2기 국가정보위원회 위원으로도 선임되어 활동했다. KT P&I 부문 부문장, 부사장을 지낸 후 제6대 한국여성공학기술인협회 회장을 지낸 바 있다.