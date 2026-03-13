트웰브랩스 이소영 공동창업자 인터뷰 “로보틱스 관심 바탕 영상이해 AI 개발” “韓커머스·제조업 주목…사업확대 계획” “현존최고 엔비디아 GPU로 인프라 지원”

“챗GPT가 정식 출시되기 전부터 로보틱스에 대한 관심이 커, 영상이해 인공지능(AI) 모델 개발을 시작하게 됐습니다.”

이소영(사진) 트웰브랩스 이사는 지난 25일 헤럴드경제와 만나 “AI가 사람처럼 보고, 듣고, 맥락을 이해해 행위까지 취하는 미래를 항상 그려왔다”며 이같이 밝혔다. 그는 “멀티모달 AI가 주목 받고 있는 피지컬 AI 시대에 자사 영상 기술이 유용하게 활용될 것으로 확신한다”고 포부를 밝혔다.

트웰브랩스는 영상이해 AI 모델을 개발하는 스타트업이다. 지난 2021년 이소영 이사를 포함한 공동창업자 5명이 미국 실리콘밸리에서 창업했다. 전 세계 AI 격전지로 꼽히는 미국 시장에서 기술력을 인정받아, 누적 투자 금액 약 1억700만달러(약 1430억원)를 유치하면서 가파르게 몸집을 불리고 있다.

트웰브랩스는 챗GPT 등장 전부터 피지컬 AI가 기술의 ‘종착지’가 될 것으로 예측했다.

이 이사는 “로봇에 영상이해 AI가 필수적일 것이라는 관측 아래, 오픈AI가 GPT-3(챗GPT 이전 세대 모델)를 내놓기 전부터 영상 검색 기술을 필두로 사업을 시작했다”며 “AI가 영상 맥락을 분석하고 이해해, 사람이 자연어로 특정 장면을 묘사했을 때 그 구간을 정확히 찾아주는 데모와 기술을 만들고자 했다”고 했다.

트웰브랩스는 지난해 12월 차세대 영상 AI 모델 ‘마렝고 3.0(Marengo 3.0)’을 출시하면서 시장 공략에 박차를 가하고 있다. 이는 영상 텍스트·음성·움직임·상황 맥락을 이해하고, 검색해주는 모델이다.

이어 이 이사는 제품의 강점으로 ‘정확도’와 ‘효율성’을 꼽았다. 그는 “영상 데이터는 각 단어가 의도를 갖고 있는 언어와 달리 의미 없는 음성, 장면 등이 많아 맥락을 이해하기 어려운데, 우리 제품은 AI가 영상을 있는 그대로 받아들여 영상 속 소리, 시각, 언어를 정확하게 이해한다”며 “자사 제품을 활용하면 수백만 시간의 영상 내용을 1초도 안 걸리는 시간에 자연어로 검색할 수 있다”고 덧붙였다.

더불어 그는 “기업들이 보유한 영상 데이터는 페타바이트(PB) 단위에 달하는데, 트웰브랩스는 영상을 차례대로 분석하는 인덱싱 기술을 통해 대규모 효율적으로 검색·분석할 수 있도록 했다”며 “그래픽처리장치(GPU)를 최소한으로 사용 가능하다”고 했다.

이 이사는 아직 영상 AI 분야가 초창기인 만큼, 자사 기술이 멀티모달 AI 시장을 선점할 것이라고 자신했다. 그는 “영상 AI 기술을 제대로 제품화한 기업을 꼽자면 구글밖에 없을 정도로, 영상은 아직 AI 산업에서 생소하다”며 “일찍부터 시장을 예상해 제품을 구축한 만큼, 멀티모달 AI 분야에서 두각을 나타낼 것으로 예상한다”고 했다.

이 이사는 한국 시장에선 커머스와 제조업을 위주로 공략하겠다고 언급했다. 그는 “영상 속 제품 설명을 AI가 자동 요약해, 해당 제품이 구매 가능 콘텐츠로 연결되는 모델이 있는데 한국 커머스 시장에서 처음으로 사용 사례가 나타났다”며 “한국 제조업 시장도 규모가 있는 만큼, 우리가 할 수 있는 일이 있을 거라 본다”고 했다.

또 향후 AI 모델을 고도화하기 위해 인프라 확보에 전념하겠단 계획이다. 그는 “2월 초 아마존웹서비스(AWS)를 통해 차세대 그래픽처리장치(GPU) ‘엔비디아 블랙웰 울트라 B300’을 도입했다”며 “전 세계 최상위 수준의 연구 환경으로 개발 환경을 지원할 것”이라고 했다. 차민주 기자