AI 기술이 빠르게 실무에 적용되면서, 단순한 데모를 넘어 ‘프로덕션 레디’ 수준의 생성형 AI 도입 전략이 중요해지고 있습니다. 이에 네이버클라우드는 지난 7월 15일, 서울 선릉에서 현업 AI 개발자와 엔지니어 190여 명이 함께한 기술 콘퍼런스 AI Dev Day를 개최했습니다.
이번 행사는 생성형 AI를 실제 서비스에 효율적으로 적용하기 위한 다양한 인사이트를 공유하는 자리로 LLM 기술 트렌드부터 멀티 AI 에이전트 아키텍처, 오디오 특화 LLM, MCP(Model Context Protocol)를 활용한 구현 전략까지 다채로운 주제가 이어졌습니다. 실용성과 기술 깊이를 균형 있게 담아낸 세션 구성은 큰 호응을 얻었으며, 참가자들은 “현업에서 바로 참고할 수 있을 정도로 콘텐츠의 완성도가 높았다”라는 피드백을 남기기도 했습니다.
이 글에서는 AI Dev Day에서 공유된 각 세션의 주요 내용을 정리해 소개합니다. 지금 현업에서 주목해야 할 생성형 AI 적용 전략과 아키텍처 인사이트를 함께 살펴보시죠.
지금 주목할 LLM 기술 흐름과 생성형 AI 적용 인사이트
네이버클라우드 기술교육팀 강지나
LLM(Large Language Model)을 둘러싼 기술 흐름은 지금 이 순간에도 빠르게 진화하고 있습니다. 그 중심에는 세 가지 주요 키워드가 있습니다.
- 물리 세계로의 확장
- Agentic AI의 부상
- 상호 운용성의 중요성
이 흐름이 어떤 방향으로 나아가고 있으며, 그 속에서 어떤 기술적・서비스적 시사점을 얻을 수 있는지 한 번 짚어보겠습니다.
1. LLM, 디지털을 넘어 현실로
LLM은 더 이상 디지털 화면 속에만 머무르지 않습니다. 이제는 디지털을 넘어, 현실 세계로 들어오는 단계에 접어들고 있죠. OpenAI는 2026년 자체 AI 기기 출시를 예고했으며(관련 자료), Google도 Pixel 스마트폰과 스마트 글라스 등 Gemini 기반의 하드웨어 플랫폼을 준비 중입니다(관련 자료).
이는 단순히 LLM이 웹이나 앱에 탑재되는 수준을 넘어, 물리적 하드웨어를 중심으로 한 AI 생태계로의 전환이 본격화하고 있다는 뜻입니다. 기기와 센서, 다양한 현실 데이터와 결합하면서 LLM은 이제 ‘정보를 단순히 처리하는 도구’를 넘어 세상을 실시간으로 이해하고 반응하는 존재로 진화하고 있습니다.
2. 능동적으로 사고하고 행동하는 Agentic AI의 부상
두 번째 흐름은 Agentic AI, 즉 스스로 사고하고 행동하는 AI입니다. 이제 LLM은 단순히 지시에 반응하는 수준을 넘어서 계획을 세우고, 문제를 해결하며, 능동적으로 작업을 수행하는 방향으로 진화하고 있습니다.
예를 들어, 웹을 검색하고 → 자료를 요약하고 → 글을 작성하고 → 결과를 검토한 뒤 최종 답변을 도출하는 전 과정을 AI가 스스로 수행할 수 있는 수준에 도달한 거죠.
네이버가 최근 공개한 추론 모델 HyperCLOVA X THINK도 Agentic AI의 대표 사례입니다. 상황에 따라 대화를 유연하게 이어가고, 언어 기반의 능동적 상호작용이 가능하도록 설계된 이 모델은 오픈소스로 공개되어 누구나 사용해 볼 수 있습니다. (Hugging Face에서 사용해 보기)
Agentic AI는 다양한 분야에서 실전 활용되고 있습니다.
- 보안(Security): 잠재적 보안 위협을 탐지하고, 자동으로 대응 코드 생성
- 공급망 관리(SCM): 재고, 시장 트렌드, 외부 지표 등을 종합 분석해 수요 예측
- 고객 응대(CRM): 행동 기반의 맞춤형 추천과 자동 대응 제공
이외에도 RAG(Retrieval-Augmented Generation), 멀티 에이전트(Multi-agent) 등 다양한 설계 방식이 더해지며, 에이전트는 점점 더 정교하고 자율적인 시스템으로 진화하고 있습니다.
3. 상호 운용성: 연결되고 협업하는 AI의 시대
Agentic AI가 혼자 일하는 시대는 끝났습니다. 이제는 LLM이 외부 도구와 데이터, 시스템과 유기적으로 연결되어야 진짜 에이전트로 기능할 수 있죠. 그 대표적인 예가 바로 MCP(Model Context Protocol)입니다.
MCP는 다양한 데이터 소스나 툴을 LLM과 간결하게 연결해 주는 일종의 연결 프로토콜입니다. 기존에는 API 포맷이 제각각이라 통합에 많은 리소스가 필요했지만, MCP를 사용하면 툴과 모델 간 인터페이스 차이를 추상화하여 훨씬 유연한 연결이 가능해지죠.
이러한 흐름은 글로벌 트렌드로도 확산하고 있습니다. Google 역시 최근 다양한 파트너들과 함께 Agent2Agent 프로토콜을 공개하며, 전문 도메인에 특화된 다양한 AI들이 서로 통신하고 협업하는 구조로 나아가고 있습니다. AI 에이전트는 더 이상 단독으로 일하지 않습니다. 이제는 ‘함께 일하는 AI’를 어떻게 설계하느냐가 관건입니다.
Agent2Agent(A2A) 프로토콜
AI Agent를 잘 쓰기 위해선?
AI Agent를 제대로 활용하기 위해선 세 가지 핵심 요소를 점검해야 합니다.
- 명확한 목적 설정이 우선입니다.
단순히 “LLM을 써보자”에서 그치지 않고, “이 에이전트를 왜 도입하는가?”, “어떤 문제를 해결하고자 하는가?”에 대한 구체적인 목표와 기대 수준을 먼저 정해야 합니다. - 지속적인 실험과 평가가 필요합니다.
생성형 AI 생태계는 하루가 다르게 변화합니다. 새로운 프레임워크, 기술, 방식이 등장할 때마다 이를 적극적으로 시도하고, 우리 시스템에 어떤 영향을 줄 수 있을지 유연하게 검토할 수 있는 태도가 중요합니다. - 애플리케이션 수준의 혁신에 집중해야 합니다.
좋은 모델을 단순히 연결하는 것에 그치지 않고, AI가 실제 서비스와 사용자 경험에서 어떤 가치를 창출하는지, 어떤 방식으로 기존 문제를 새롭게 해결할 수 있는지 사용자 중심에서 문제를 바라보고, 그것을 해결하는 도구로서 AI를 활용할 수 있어야 합니다.
이제는 단순한 모델 성능보다 어떻게 연결하고, 어떤 구조로 구현하며, 실제로 어떤 경험을 만들어내는지가 훨씬 더 중요합니다. LLM은 이제 기술 그 자체를 넘어 경험을 설계하는 도구가 되고 있습니다.
AI와 함께 움직이는 이 시대, 여러분은 어떤 에이전트를 만들고 있나요?
‘지금 주목할 LLM 기술 흐름과 생성형 AI 적용 인사이트’ 다시 보기
Multi-AI Agent 아키텍처와 구현 전략
네이버클라우드 솔루션 아키텍트 허창현
AI를 단일 모델로만 바라보던 시대는 지났습니다. 최근에는 목적과 역할에 따라 여러 개의 AI가 서로 협력하며 일하는 ‘멀티 에이전트(Multi-agent)’ 구조가 주목받고 있습니다. 이 세션에서는 멀티 에이전트가 왜 필요한지, 어떤 방식으로 구현할 수 있는지, 그리고 이를 뒷받침하는 다양한 프레임워크와 아키텍처 전략을 소개했습니다.
멀티 에이전트는 왜 필요할까?
단일 에이전트만으로는 복잡하고 정교한 작업을 완벽하게 수행하기 어렵습니다. 예를 들어, 자연어로 SQL 쿼리를 생성하는 NL2SQL(Natural Language to SQL) 작업에서는 환각(hallucination) 현상이나 정확성 문제 등 여러 한계에 자주 부딪히게 됩니다.
이러한 한계를 극복하려면, 서로 다른 역할을 가진 여러 에이전트가 단계적으로 협력하는 구조가 필요합니다. 예를 들어, NL2SQL 작업을 수행할 때 다음과 같이 특화된 에이전트가 필요합니다.
- 키워드를 추출하는 에이전트
- SQL 표준 준수 여부를 검증하는 에이전트
- 생성된 쿼리가 실제로 동작하는지 확인하는 에이전트
위 특화된 역할을 가진 에이전트가 분업적으로 협업하면, 정확도와 안정성을 동시에 높일 수 있습니다. 실제 사례로, 저희는 멀티 에이전트 구조를 기반으로 한 ‘로그 패턴 분석 기반 위협 탐지 시스템’을 구현한 바 있습니다. 이 시스템에서는 다음과 같은 여러 에이전트가 함께 동작합니다.
- 특정 로그 패턴을 감지하는 모델
- 감지된 오류 유형을 정교하게 분석하는 모델
- 사용자에게 적절한 후속 조치를 안내하는 모델
각 모델이 하나의 팀처럼 유기적으로 협력하면서, 더 신속하고 정확한 탐지 및 대응이 가능해졌죠.
어떤 프레임워크를 써야 할까?
멀티 에이전트를 구현하기 위해서는 적절한 프레임워크 선택이 중요합니다. 업무 성격과 목적에 따라 아래 도구를 유연하게 조합해 볼 수 있습니다.
대표적인 아키텍처 패턴 2가지
멀티 에이전트 시스템을 구성하는 방식에도 전략이 필요합니다. 대표적으로 아래 두 가지 패턴이 많이 활용됩니다.
- Swarm Pattern (네트워크형)
-
- 중앙 통제 없이 에이전트가 서로 툴콜(tool-calling)과 핸드오프(handoff)를 통해 작업을 이어가는 방식
- 예: 정보 검색 → 번역 → 사용자 응답 등
- Supervisor Pattern (계층형)
-
- 상위 슈퍼바이저 에이전트가 하위 에이전트를 지휘하며 작업
- 예: 한 팀은 자료를 수집하고, 다른 팀은 요약/보고서 작성
- 복잡한 과업일수록 단일 에이전트보다 효율적
멀티 에이전트 시대, 무엇을 준비해야 할까?
멀티 에이전트 시스템을 제대로 활용하기 위해서는 도구만큼이나 사람의 역량이 중요합니다.
특히 강조하고 싶은 두 가지는 다음과 같습니다.
- 모델에 대한 이해
HyperCLOVA X처럼 대규모 모델이 어떻게 작동하는지 학습하고, SFT(Supervised Fine-tuning) 등을 통해 직접 튜닝해 보는 경험이 필요합니다.
- 프레임워크 실전 활용 능력
다양한 오픈소스 툴과 SDK를 목적에 맞게 조합해 실제 시스템에 녹여내는 역량이 요구됩니다.
멀티 에이전트는 더 이상 미래 기술이 아닙니다. 이미 우리는 여러 AI 도구와 함께 일하고 있고, 이들을 어떻게 설계하고 연결하느냐에 따라 업무 효율과 서비스 품질이 달라집니다. 단일 모델에서 벗어나 서로 협력하는 AI 구조를 고민해야 할 때입니다.
여러분의 서비스에는 어떤 에이전트가 함께 일하고 있나요?
‘Multi-AI Agent 아키텍처와 구현 전략’ 다시 보기
AI Agent 구현을 위한 MCP 활용 방안
네이버클라우드 솔루션 아키텍트 최장호
AI 에이전트를 실제 서비스에 도입하려면 단순히 LLM만 잘 만든다고 끝나지 않습니다. 진짜 과제는 LLM이 외부 툴과 얼마나 잘 연결되어 협업하느냐죠. 이 세션에서는 그 핵심 연결 고리인 MCP(Model Context Protocol)를 중심으로 실제 활용 사례와 구현 전략을 소개했습니다.
LLM → RAG → AI Agent로의 진화
초기의 LLM은 사용자의 질문에 응답하거나 텍스트를 생성하는 정도에 머물렀습니다. 이후 RAG (Retrieval-Augmented Generation) 구조가 등장하며, 실시간 정보까지 반영할 수 있게 되었고, 이제는 LLM이 외부 도구를 능동적으로 활용하는 에이전트로 진화하고 있습니다.
에이전트는 다음과 같은 사이클로 작동합니다: Observe(관찰) → Plan(계획) → Act(실행)
여기서 중요한 건 도구를 얼마나 잘 연결하고 호출할 수 있는가, 그리고 그 역할을 수행할 수 있는 LLM인가입니다.
AI 에이전트의 작동 구조
툴 연결의 복잡함, MCP로 해결
이론은 멋지지만, 현실에서는 툴 연결이 생각보다 번거롭습니다. 예를 들어, LLM 기반 앱에 Gmail, Notion, GitHub, Slack 등을 붙이려면 API마다 다른 로직을 따로 구현해야 하죠. 이 작업은 반복적이고 비효율적입니다.
이를 해결하기 위해 등장한 표준이 바로 MCP(Model Context Protocol)입니다. Anthropic이 제안한 MCP는 LLM과 외부 도구 간의 통신을 JSON-RPC 기반 표준 방식으로 단순화합니다.
- LLM (예: HyperCLOVA X, Claude 등) → MCP Client
- 외부 툴 (예: Gmail, Notion, GitHub 등) → MCP Server
표준만 맞추면 바로 연결 가능하니, 새로운 기능을 추가하거나 교체할 때 훨씬 빠르고 유연해집니다.
MCP 구조
네이버클라우드의 MCP 활용 사례
네이버클라우드 역시 MCP를 기반으로 다양한 프로젝트를 진행 중입니다. 긴 영상을 요약해 노션에 자동 정리하는 워크플로우를 MCP로 구현해 봤는데요. 자막 추출부터 댓글 요약, 화면 캡처, 노션 업로드까지 모든 과정을 한 줄의 지시만으로 Claude가 알아서 처리하는 모습을 보며, 정말 AI 에이전트 같다는 인상을 받았습니다.
MCP는 코드 관리에도 매우 유용하게 활용됩니다. GitHub 이슈를 자동으로 분석해 관련 코드를 수정하고 커밋까지 처리하는 자동화 시나리오를 만들거나, Cursor AI와 연동해 이슈를 해결하는 흐름도 손쉽게 구성할 수 있습니다.
고객사에서 자주 요청하는 기능 중 하나는 챗봇에 실시간 웹 검색이나 내부 문서 검색 기능을 붙이는 것입니다. 하지만 이를 직접 구현하려면 새로운 API를 붙이고 복잡한 로직을 구성해야 하기에 부담이 큰 것이 현실이죠.
이럴 때 MCP를 활용하면 도구의 추가나 교체를 표준화된 방식으로 유연하게 구성할 수 있습니다. 예를 들어, LangGraph를 통해 에이전트의 흐름을 설계하고, 내부에서는 MCP Client가 웹 검색이나 문서 검색 등의 작업을 위해 외부 MCP Server와 통신하는 구조로 설정하면 됩니다.
이러한 구조는 네이버 클라우드 플랫폼 환경에서도 손쉽게 구현할 수 있습니다.
- LLM: HyperCLOVA X 활용
- 벡터 DB: NAVER Search DB나 Pinecone 연결
- 보안: 도커(Docker)로 서버를 로컬에 구성하여 보안 강화
연결이 곧 경쟁력
에이전트형 AI에서 ‘연결’은 선택이 아닌 필수입니다. MCP는 툴 개발자와 LLM을 자연스럽게 이어주는 다리 역할을 하며, 에이전트의 가능성을 한 단계 더 끌어올립니다.
앞으로 Agentic AI가 더 널리 퍼지기 위해서는 이런 표준 기반 연결 방식이 핵심이 될 겁니다. 툴 개발자 입장에서는 반복 작업을 줄이고, LLM 개발자는 강력한 워크플로우를 구현할 수 있죠. 툴 연결이 부담스럽다는 생각이 들었다면, 지금이 MCP를 도입할 때입니다.
‘AI Agent 구현을 위한 MCP 활용 방안’ 다시 보기
대화형 에이전트를 위한 Audio LLM, HyperCLOVA X Audio
네이버클라우드 최상혁 연구원
“AI와 목소리로 자연스럽게 대화할 수 있다면 어떨까?”
많은 분이 영화 <Her>의 사만다나 <아이언맨>의 자비스처럼, 말로 소통하는 AI를 상상해 본 적 있을 텐데요. 네이버클라우드는 이런 상상을 실현하기 위한 연구를 본격화하고 있습니다. 바로 HyperCLOVA X Audio, 네이버의 오디오 LLM 프로젝트입니다.
이번 세션에서는 단순한 음성 인식 기술을 넘어 감정과 억양까지 표현하고 이해하는 AI 에이전트를 만들기 위한 기술적 시도와 진화 방향을 소개했습니다.
오디오 에이전트란 무엇인가요?
대화에서 텍스트가 차지하는 비중은 단 10%에 불과합니다. 나머지 90%는 억양, 말의 속도, 감정 등 비언어적 요소가 지배하죠. 진정한 ‘대화형 AI’를 만들기 위해선, 단순히 말을 알아듣고 말하는 수준을 넘어, 상황과 감정을 맥락으로 이해하고 자연스럽게 반응할 수 있어야 합니다.
네이버가 지향하는 오디오 에이전트는 다음과 같은 특징을 갖습니다.
- 감정, 억양, 맥락까지 고려해 소통
- 실시간에 가까운 반응 속도
- 끊김 없이 중간에 끼어들 수 있는 능동성
- 사람처럼 개성 있는 목소리 생성
기존 방식의 한계, 그리고 HyperCLOVA X Audio의 구조
기존의 음성 AI는 보통 STT(Speech-to-text)로 음성을 텍스트로 바꾸고, LLM이 답변을 생성한 뒤, TTS(Text-to-speech)로 다시 음성으로 읽어주는 3단계 캐스케이드 구조를 사용해 왔습니다. 하지만 이런 방식은 사람의 말투나 감정을 완전히 이해하거나, 자연스럽게 반응하는 데 한계가 있었습니다.
그래서 HyperCLOVA X Audio는 더 자연스럽고 빠르게 응답하는 AI를 만들기 위해 구조 자체를 바꾸고 있습니다. 목표는 아래와 같습니다.
- Cascade → Natural
단순한 처리 단계를 넘어서, 감정과 억양까지 이해하고 표현할 수 있도록
- Near real-time
사용자의 말이 끝나기도 전에, 약 300 ms 이내로 응답을 준비할 수 있도록
- Real-time + General Intelligence
끊김 없이 중간에 말에 끼어들고, 대화하듯 실시간 반응하는 진짜 음성 에이전트로
이를 위해 HyperCLOVA X Audio는 음성을 그대로 입력받아 바로 음성으로 응답하는 통합형 음성 LLM 구조를 채택했습니다. 기존처럼 각 단계를 나눠 처리하는 것이 아니라, 한 번에 자연스럽게 처리하는 구조로 진화한 것입니다.
HyperCLOVA X Audio의 작동 방식은 다음과 같습니다.
- Codec 처리
음성을 LLM이 이해할 수 있는 형태로 변환합니다. 예를 들어 1초 동안의 오디오를 약 50개의 압축된 토큰으로 바꿔 처리합니다. - Pre-training
방대한 양의 음성과 텍스트 데이터를 통해 오디오–텍스트 관계를 학습해, 다음에 올 내용을 예측하는 능력을 강화합니다. - Fine-tuning
고품질 데이터를 활용해 정밀하게 모델을 다듬고, 실제 사람처럼 자연스러운 말투와 목소리를 구현하는 Voice Engine을 개발합니다.
현재는 안정성을 위해 기존의 STT → LLM → TTS 방식을 사용하고 있지만, 궁극적인 목표는 음성을 직접 이해하고 생성하는 End-to-end 구조입니다.
아래는 실제 인물의 목소리를 파인튜닝 하여, AI가 PDF 문서를 팟캐스트처럼 자연스럽게 읽어주는 기능을 구현한 데모입니다.
AI가 생성해 주는 맞춤형 팟캐스트 Podcast LM 시연 다시 보기
Full-duplex Audio LLM을 향한 도전
저희가 궁극적으로 지향하는 목표는, 턴(Turn) 없이 실시간으로 소통할 수 있는 Full-duplex Audio LLM입니다. 사용자의 말을 들으면서 동시에 응답을 준비하고, 끊김 없이 바로 말할 수 있는 자연스러운 대화형 AI를 만들고자 합니다.
이를 실현하기 위해서는 음성이나 시각 같은 새로운 모달리티를 LLM에 결합하되, 기존 LLM이 가진 고차원적인 사고력과 표현력을 해치지 않는 것이 핵심입니다.
복잡한 수학 문제를 풀면서도 그 과정을 자연스럽게 설명할 수 있는 AI. 바로 그런 모델을 목표로 연구를 이어가고 있습니다. 앞으로도 AI와 사람 사이의 경계를 허무는 진정한 대화형 에이전트를 향해 끊임없이 도전하겠습니다.
‘대화형 에이전트를 위한 Audio LLM, HyperCLOVA X Audio’ 다시 보기