생성형 AI는 분명 우리의 삶을 빠르게 바꾸고 있습니다. 인간의 역량을 확장하고, 일하는 방식과 산업의 흐름을 바꾸는 데 크게 기여하고 있죠. 하지만 성장과 성능 중심의 논의와 함께, AI가 누구에게 어떻게 닿고 있는가라는 질문 역시 놓쳐서는 안 됩니다.
최근 주목받는 흐름 중 하나가 바로 포용적 AI입니다. 노인, 어린이, 장애인, 환자 등 기존 기술 환경에서 상대적으로 소외되기 쉬웠던 사람들에게 AI의 혜택을 확장하려는 시도죠.
그렇다면 여기서 한 걸음 더 나아가 볼 수 있습니다. 지금까지의 포용적 AI는 이들의 삶을 충분히 다각도로 바라보고 있었을까요? 혹시 일상의 일부만을 돕는 데 그치며, 이들을 도움이 필요한 수동적 대상으로 한정하고 있지는 않았을까요? 일상의 보조를 넘어, 이들의 삶 전반을 실질적으로 지원하는 AI는 어떤 모습이어야 할까요?
우리는 이러한 질문에서 출발해, 포용적 AI를 새롭게 정의하고 이를 평가할 수 있는 벤치마크를 제안하고자 했습니다.
포용적 AI 에이전트란?
노인, 어린이, 장애인, 환자 등 포용적 AI의 대상이 되는 그룹을 위해 AI가 할 수 있는 일은 다양합니다. 외로운 노년층의 말동무가 되어주기도 하고, 자폐 아동의 의사소통을 돕기도 하죠. 하지만 AI는 그보다 더 많은 역할을 수행할 수 있습니다. 그들이 사회의 구성원으로서 기여하고 있는 현장, 즉 생업의 터전에서 실질적인 도움을 주는 것이죠.
실제로 포용적 AI의 대상이 되는 그룹 중에는 사회적ㆍ경제적 활동을 활발히 이어가고 있는 사람들이 적지 않습니다. 그들의 삶을 진정으로 위한다면, 일상의 편의를 넘어 일하는 현장에서 역량을 발휘하도록 돕는 것까지 문제를 확장해야 하지 않을까요?
산업 현장에서 일하고 있지만 AI를 접할 기회가 적거나, 활용에 제약이 있었던 사람들을 포용하고 그들의 역량을 증강하는 것, 우리는 이 역할을 수행하는 AI를 포용적 AI 에이전트라고 정의합니다. 포용적 AI 에이전트는 단순히 정보를 제공하는 데 그치지 않고 사람들이 실제로 마주하는 문제를 해결할 수 있어야 하며, 이를 통해 AI가 더 넓은 산업 현장에서 의미 있게 활용되는 길을 열어야 합니다.
산업을 바라보는 관점의 전환
포용적 AI 에이전트를 위와 같이 정의한다면, 산업을 바라보는 관점에도 변화가 필요합니다. 즉, 산업을 포용적인 관점으로 해석할 필요가 있는 것이죠. 이에 우리는 기존의 생성형 AI 기업들이 산업을 바라보는 방식과는 다른 접근을 시도했습니다.
2025년 9월, 오픈AI는 GDPval이라는 벤치마크를 공개했습니다. 이는 경제적으로 파급력이 큰 태스크를 기준으로, 생성형 AI가 실제 업무를 얼마나 잘 수행할 수 있는지를 평가하기 위한 시도였죠. 오픈AI는 미국 기준으로 GDP에 5% 이상 기여하는 9개 산업을 선별하고, 각 산업군에서 대표적인 직업을 선정해 해당 직무를 생성형 AI가 수행할 수 있는지를 중심으로 벤치마크를 구성했습니다.
그림 1: GDPval에 활용된 9개의 산업과 44개의 세부 직업
(출처: GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS)
이러한 접근은 산업을 경제적 기여도와 성장 가능성을 중심으로 해석하고 있음을 보여줍니다. 그렇다면 이를 포용의 관점에서 다시 바라본다면 어떤 해석을 할 수 있을까요?
우리는 시선을 바꿔, 산업의 파급력이 아니라 산업에 종사하는 사람에 초점을 맞췄습니다. 포용적 AI 에이전트가 실제로 도움을 줄 수 있는 대상이 어디에서 일하고 있는지를 알아보고자 했죠. 그리고 그중에서도 실제로 생업에 참여하고 있는 고령자(50대 이상)를 포용적 AI 에이전트의 주요 대상으로 설정하여, 대한민국의 산업 지형을 살펴보았습니다.
‘고령자’를 위한 포용적 AI 에이전트 벤치마크
아래 그림은 2024년 2분기를 기준으로 산업별로 50대 이상 종사자 비율을 산출한 순위를 나타냅니다. 이를 통해 우리나라 산업 전반에 50대 이상 인구가 얼마나 높은 비중을 차지하고 있는지 확인할 수 있습니다. 자가소비생산활동처럼 산업 형태로 특정하기 어려운 항목을 제외하고 살펴보면, 상위 산업군에는 GDPval에서 핵심적으로 다뤄지지 않았던 영역들이 다수 포함되어 있음을 알 수 있죠.
그림 2: 2024년 2분기 기준 50대 이상 산업별 종사자 수 순위
(출처: 국가데이터처 「경제활동인구조사」)
구체적으로 금융 및 보험업, 전문ㆍ과학ㆍ기술 서비스업, 출판ㆍ영상ㆍ방송통신 및 정보 서비스업 등은 상위권에서 찾아보기 어렵습니다. 반면 농림어업, 광업, 건설업, 운수업, 하수ㆍ폐기물처리, 원료재생 및 환경복원업과 같이, 일반적으로 선진국의 성장 동력으로 분류되지 않는 산업이 상위권을 차지했습니다.
이러한 분포는 포용적 AI 에이전트가 어디에서 역할을 해야 하는지에 관한 시사점을 제공합니다. 고령자들은 실제로 산업 현장에서 활발히 일하고 있지만, 상대적으로 기술적 수혜를 받기 어려운 산업에 놓여 있을 가능성이 높다는 점입니다. 따라서 우리는 포용적 AI 에이전트가 실제로 활약해야 할 산업과 그 안의 구체적인 태스크는 무엇인지, 나아가 현재의 AI가 이러한 업무를 얼마나 효과적으로 수행하고 있는지를 검증하기 위한 벤치마크는 어떻게 설계되는지 살펴보고자 합니다.
포용적 AI 에이전트의 역할
포용적 관점으로 산업을 바라본 1차 분석을 바탕으로, 포용적 AI 에이전트가 수행해야 할 역할을 구체적으로 정의하고자 했습니다. 이를 위해 먼저 산업군을 선정하고, 각 산업 내에서 고령층 종사자가 실제로 마주하는 현장의 문제(Real-World Problem)를 찾아내는 데 집중했습니다.
이 과정에서 우리는 단순히 어떤 업무가 존재하는지 나열하는 데 그치지 않았습니다. 고령층 종사자가 실제로 업무를 수행할 때 어떤 시스템과 연결되어 있는지, 그리고 도중에 어디에서 어려움을 겪는지를 함께 고려했습니다.
이처럼 실제 환경을 면밀히 살펴본 결과, 포용적 AI 에이전트와 벤치마크가 다뤄야 할 영역은 단순히 생성형 AI가 자체적으로 알고 있는 정보를 제공하는 수준을 넘어, 외부 시스템과 연동해 도구를 호출하고 업무를 처리하는 에이전틱 툴 유즈(Agentic Tool Use) 역량이라는 점이 분명해졌습니다.
무엇보다 중요했던 기준은, ‘기존 시스템과의 소통을 AI 에이전트가 대신했을 때, 그것이 과연 고령층에게 실질적인 도움이 되는가?’였습니다. 이러한 기준을 바탕으로 선정된 산업군과 태스크는 다음과 같습니다.
50대 이상 종사자 수가 약 100만 명 이상이거나, 해당 연령층이 전체 종사자의 50%에 달하는 주요 산업군을 중심으로 총 4개 산업을 선정한 후 (표1), 각 산업군 내에서 고령층 종사자가 실제 현장에서 마주하는 대표적인 태스크를 하나씩 도출했습니다 (표2).
- 농기계 고장 대응
농기계 고장은 농업 현장에서 가장 빈번하게 발생하는 문제입니다. 해결 방식 자체는 복잡하지 않지만, 고령 농업 종사자에게는 큰 부담으로 작용하는 영역이기도 합니다. 실제로 농기계 고장 대응을 위해 지자체가 별도의 전화 상담 서비스를 운영할 정도로 현장에서 매우 일반적인 문제입니다.
- 요양보호사 업무 관리
우리나라 요양보호사의 현실을 반영한 태스크입니다. 요양보호사의 약 80% 이상이 50대 이상으로 알려져 있으며, 업무 수행 과정에서 각종 기록과 보고를 디지털 시스템에 입력해야 합니다. 시스템을 사용하는 데 어려움을 겪는 경우가 많다는 점에서, 포용적 AI 에이전트가 실질적인 도움을 줄 수 있는지 확인할 필요가 있습니다.
- 편의점 상품 관리
은퇴 이후 창업으로 편의점을 선택하는 고령층 점주가 많다는 점에서 착안했습니다. 상품 발주, 재고 확인, 반품 처리 등 편의점 운영의 핵심 업무는 대부분 디지털 시스템을 통해 관리됩니다. 이러한 복합적인 관리 업무는 고령 점주에게 큰 부담이 되기 쉬운 영역입니다.
- 화물차 배차 관리
화물차 운전자 중 50대 이상 비중은 70% 이상으로 알려져 있으며, 대개 개인 화물차 운송 사업자로 활동하고 있습니다. 이들에게 배차와 운행 관리는 곧 수익과 직결되는 핵심 업무이며, 이 영역 역시 포용적 AI 에이전트가 개입할 여지가 크다고 판단했습니다.
이처럼 산업군과 태스크를 선정했다면, 다음으로는 포용적 AI 에이전트가 이러한 태스크를 실제로 수행할 때 마주하게 될 사용자 환경을 구현하고 평가에 반영하는 것도 중요한 과제입니다.
사용자 특성이 벤치마크에 반영되기까지
포용적 AI 에이전트는 산업 현장의 고령 사용자와 직접 소통하며 태스크를 수행하므로, 우리는 실제 대화 환경을 반영한 평가 환경을 설계할 필요가 있습니다. 이를 위해 다양한 고령자 대화 데이터와 관련 연구를 분석했고, 다음과 같은 특징적인 패턴을 확인할 수 있었습니다.
- 필요한 정보를 적시적기에 제공하지 않음
- 대화 중 용어나 표현 망각
- 불필요한 맥락을 제공하여 논점 이탈
이러한 특성은 고령자의 ‘한계’라기보다는, 포용적 AI 에이전트가 실제로 마주하게 될 ‘환경’에 가깝습니다. 따라서 이러한 환경을 고려해 에이전트를 설계한다면, 이를 얼마나 잘 대응하고 수행했는지 평가하는 기준 역시 새롭게 정의될 필요가 있습니다.
즉, 포용적 AI 에이전트를 평가하기 위해 태스크의 최종 결과물뿐 아니라, 그 결과에 이르기까지의 과정 자체도 평가되어야 한다는 결론에 이르렀습니다. 예를 들어, 아래와 같은 요소들이 중요한 평가 기준이 됩니다.
- 사용자가 필요한 정보를 제때 제공하지 못했을 때, 에이전트가 대화 흐름 속에서 이를 파악하고 자연스럽게 유도할 수 있는지
- 모호한 표현 속에서도 사용자의 의도를 추론해 문제를 해결할 수 있는지
이러한 관점에서 우리는 고령자의 특성까지 반영해, 포용적 AI 에이전트가 실제로 마주할 문제와 대화 상황을 담은 벤치마크를 구성했습니다.
설계에서 검증으로: 포용적 AI 에이전트 벤치마크의 다음 단계
이번 포용적 AI 벤치마크 1편에서는 포용적 관점에서 산업을 재해석하고, 고령자를 중심으로 한 포용적 AI 에이전트의 역할과 이를 평가하기 위한 벤치마크의 설계 방향을 살펴보았습니다.
이어질 포용적 AI 벤치마크 2편에서는 산업 현장에서 고령자가 마주할 수 있는 작업 환경과 제약을 가정하여 구성한 평가 환경에서 다양한 AI 모델이 얼마나 효과적으로 대응하는지에 대한 결과를 공유하고자 합니다.
이번 시도가 앞으로 AI가 우리 삶 속에 보다 자연스럽고 따뜻한 방식으로 스며드는 방향을 모색하는 데 작은 단서가 되기를 바랍니다.



