데이터 크롤링은 웹상에서 분산ㆍ저장돼 있는 정보를 수집하는 기술을 말한다. 사진은 직원이 데이터 크롤링 작업을 하고 있는 모습. [사진제공 = 로한아이티] |
리벤지 포르노처럼 없애야 할 콘텐츠를 취합하려고, 혹은 평판관리처럼 나에게 꼭 필요한 콘텐츠만 모으고자, 목적은 다양하지만, 수요는 같다. 수많은 데이터 속에서 얼마나 빨리 정확하게 데이터를 ‘크롤링’하고 ‘필터링’하는가.
관련 업계를 통해 4차산업 시대 ‘데이터 크롤링’의 현황과 전망을 살펴봤다.
▶디지털 성범죄 범람, 디지털 장의사 각광 = 한국고용정보원은 2016년 향후 5년 내 유망 직종 중 하나로 ’디지털 장의사’를 선정했다. 당시만 해도 생소한 직업이었으나 현재 포털 사이트에 ‘디지털 장의사’만 검색하더라도 수십 개 광고가 등장할만큼 대중적인 직업이 됐다.
디지털 장의사는 애초 임종을 앞두고 생전에 남긴 인터넷 개인정보를 지워주는, 실제 장의사와 같은 목적으로 출발한 직업군이다. 온라인 인생을 지워준다는 의미다. 미국의 라이프인슈어드닷컴 등이 대표적인 회사다. 300달러 내외를 지불하면 SNS나 웹상에 남아 있는 정보를 모아 삭제해준다.
이 과정에 쓰이는 기술이 ‘디지털 크롤링’이다. ‘크롤링’은 분산ㆍ저장돼 있는 정보를 수집하는 기술이다. 국내에선 최근 ‘리벤지 포르노’가 사회 문제로 부각되면서 본격적으로 시장이 형성되기 시작했다.
경찰청에 따르면, 디지털 범죄를 의뢰하는 건수도 매년 증가, 2013년 1만여건 수준에서 지난해 3만6000여건으로 3배 이상 급증했다.
▶조작된 정보까지 찾는다, DNA 필터링 기술 = 데이터 크롤링에서 한층 진화된 기술이 ‘DNA 필터링’이다. 말 그대로 데이터의 ‘DNA’를 추출, 이를 다른 데이터와 비교해서 원본과 동일한지 여부를 확인하는 기술을 일컫는다.
데이터 크롤링이 1차적인 작업 수준이라면, DNA 필터링은 비교ㆍ검증 작업을 추가, 한층 정확도를 높이는 기술이다.
관련 업체 로한아이티의 김남철 대표는 “기존의 헤쉬값 필터링만 적용하면 해상도를 줄이거나 반전을 더하는 등 파일을 조작하면 이를 걸러내질 못한다”며 “데이터의 특징을 DNA화해서 필터링을 하면 DNA가 바뀌지 않는 한 변형된 데이터도 찾아낼 수 있다”고 설명했다. 이 업체는 자동화 데이터 크롤링, 헤쉬 및 DNA 필터링, 사후 모니터링 등을 제공하고 있다.
데이터를 가공하는 기술이 날로 진화하고 데이터 규모 자체가 방대해지면서 DNA 필터링의 적용 여부가 원하는 데이터를 찾아내는 핵심 기술이 되고 있다.
김 대표는 “현재 민간 영역의 디지털 장의사 서비스가 단순한 수작업 수준인 경우가 많다”며 “DNA 필터링을 비롯, 신속하면서도 정확하게 데이터를 찾아내는 기술이 향후 이 시장의 차별화 요소가 될 것”이라고 내다봤다.
방송통신위원회도 DNA 필터링 시스템 도입 사업을 진행, 신년부터 이를 전면 도입할 계획이다.
▶데이터 증거를 확보하라, ‘리걸테크’ 시장도 주목 = 데이터 크롤링, DNA 필터링 등을 통해 얻은 정보를 법적 증거로 활용하는 기술(Legal-Tech) 시장도 주목된다. 리걸 테크는 ‘법’과 ‘기술’의 결합 신조어로, IT 기술을 바탕으로 한 법률서비스를 의미한다.
AI 변호사 출현이 미래상이라면, 데이터 크롤링ㆍDNA 필터링 등의 기술을 통해 실제 수사의 증거자료로 활용하는 식의 리걸테크는 현재에도 활용 가능한 시장이다.
민간에서도 단순히 자료를 찾고 삭제하는 수준의 디지털 장의사가 아닌, 실제 찾은 자료를 수사기관이나 재판 등에 활용할 수 있도록 구비해주는 서비스까지 등장하고 있다. 김 대표는 “디지털 포렌식 서비스가 민간 영역으로 점차 확산되고 있고, 이젠 법적 증거 요건까지 갖출 정도로 데이터를 제공할 수 있는지가 중요하다”고 전했다.
▶불법유포 차단부터 평판관리ㆍ마케팅까지 = 데이터 크롤링 기술이 진화하면서 이를 활용할 수 있는 시장도 점차 늘어나고 있다.
디지털 범죄 피해 여성이나 영화계 등은 불법 콘텐츠 차단이 현재 주된 수요층이라면, 향후엔 빅데이터 시대의 콘텐츠 관리 시장으로 확대될 것으로 전망된다.
악성 데이터를 찾아내는 시장에 그치지 않고, 양성 데이터의 효과를 확인하는 것도 가능하다. 특정 기업의 이미지나 평판을 두루뭉술하게 확인하는 게 아닌, 실제로 데이터 수집 등을 통해 확인하는 식이다. 데이터 내에서 새로운 데이터를 추출, 의미를 찾아내는 빅데이터와도 맞닿아 있다.
한국과학기술정보연구원에 따르면, 2020년 국내 빅데이터 시장 규모는 약 900만 달러까지 성장할 것으로 전망된다. 최근 3년(2014~2016년) 간 연평균 성장률도 27.9%에 이른다.
업계 관계자는 “빅데이터 시대에서 원하는 정보를 찾아내거나 지우는 기술은 점점 수요가 늘어날 것”이라고 전했다.
dlcw@heraldcorp.com