Based on “SimUser: Generating Usability Feedback by Simulating Various Users Interacting with Mobile Applications” (2024) by Wei Xiang, Hanfei Zhu, Suqi Lou, Xinli Chen, Zhenghua Pan, Yuping Jin, Shi Chen and Sun Lingyun in Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems, Article No. 9, Pages 1-17.
무엇을, 왜 연구했나?디지털 제품과 서비스 시장이 빠르게 성장하면서 사용자 경험(UX)의 중요성이 더욱 부각되고 있다. 특히 효과적인 UX 설계는 제품 경쟁력을 좌우하는 핵심 요소로 자리 잡았다. 그러나 프로토타입 개발 단계에서 사용자 테스트를 수행하는 것은 시간과 비용이 많이 드는 작업이라 충분한 검증 없이 제품이 출시되는 경우가 빈번하다. 기존 AI 기반 사용성 평가 도구는 사용자 인터페이스(UI)의 기능적 타당성을 분석하는 데 초점을 맞추고 있지만 실제 사용자의 개별 특성과 사용 맥락을 충분히 반영하지 못한다는 한계가 있다. 사용자의 기대나 실제 상호작용 방식을 예측하는 데 어려움을 겪어 정적인 UI 평가에 머물러 있는 것이다.
이 문제를 해결하기 위해 중국 저장대 연구진은 ‘심유저(SimUser)’라는 AI 기반 사용성 평가 도구를 개발했다. 심유저는 대형언어모델(LLM)과 CoT(Chain-of-Thought)
1
기법을 활용해 다양한 사용자 그룹의 경험을 시뮬레이션하고 이를 통해 실제 사용자와 유사한 사용성 피드백을 자동으로 생성하는 것을 목표로 한다. 기존의 AI 기반 접근법이 UI 요소 배치나 클릭 가능성 등 정적인 측면만 분석했다면 심유저는 사용자의 기대 상호작용, 작업 수행 방식, 환경적·물리적 제약과 같은 맥락적 요소를 반영해 동적인 피드백을 제공하도록 설계됐다.
심유저의 효과를 검증하기 위해 연구진은 대학생과 노인 등 48명의 사용자와 UX 디자이너 21명을 대상으로 실증 연구를 진행했다. 실험에서는 스마트워치용 스포츠 애플리케이션 프로토타입을 활용해 심유저가 실제 사용자와 유사한 피드백을 생성하는지를 평가했다. 참여자들은 스마트워치를 이용해 특정 작업을 수행하며 사용성 문제를 기록했고 심유저는 동일한 작업을 가상 사용자로서 수행하며 피드백을 생성했다. 이후 연구진은 심유저의 피드백과 실제 사용자 피드백의 유사성을 비교해 AI 기반 평가 도구의 실효성을 분석했다.
무엇을 발견했나?연구에서 심유저는 인간 사용자의 피드백과 35.7~100%의 유사성이 나타났다. 특히 정보 및 기능(90.3%), 인터페이스 레이아웃(84.8%), 상호작용 논리(86.5%) 등의 카테고리에서 높은 일치율을 보였다. 연구의 주요 결과는 다음과 같다.
첫째, 심유저는 인간과 유사한 사용성 피드백을 생성했다. 심유저는 기대 불일치(Expectation Disconfirmation) 방식을 적용해 사용자의 기대와 실제 경험을 비교하고 피드백을 생성했다. 이를 통해 사용자의 인지 과정과 상호작용 패턴을 효과적으로 재현할 수 있었다. 예를 들어 심유저는 “녹색 아이콘이 ‘시작’ 버튼일 것이라고 예상했다”라는 피드백을 제공했으며 이는 인간 사용자가 실제로 언급한 의견과 유사한 내용이었다. 또한 “스마트워치 화면의 글자가 너무 작아 가독성이 떨어진다”는 피드백 역시 실제 사용자 테스트에서 노인 사용자들이 공통적으로 지적한 문제와 일치했다. 기존 AI 기반 사용성 평가 모델이 주로 UI 요소를 분석하는 것에 초점을 맞춘 반면 심유저는 사용자가 인터페이스를 탐색하고 조작하는 방식까지 시뮬레이션할 수 있다는 점에서 더욱 발전된 도구였다.
둘째, 심유저는 특정 맥락적 요소를 반영할 수 있는 능력을 갖추고 있었다. 예를 들어 조명 환경과 관련해 “밝은 야외에서는 화면이 잘 보이지 않을 가능성이 높다”는 피드백을 제공했으며 이는 인간 사용자들이 밝은 환경에서 불편함을 느꼈다는 피드백과 일치했다. 또한 소음이 많은 운동 환경에서 “운동 중 소음이 많을 경우 진동 피드백이 더 효과적일 수 있다”는 피드백을 생성했으며 이는 실제 젊은 사용자 그룹이 제시한 의견과 유사했다. 신체적 특성과 관련해 노인 사용자 시뮬레이션에서는 “버튼이 너무 작아 클릭하기 어렵다”는 피드백이 생성됐으며 실제 노인 사용자들이 유사한 문제를 지적했다. 이를 통해 심유저가 단순한 정적 UI 분석을 넘어 사용자의 실제 사용 환경을 반영해 평가하는 데 효과적임을 확인할 수 있었다.
한편 심유저는 경험적 지식과 최신 UX 트렌드를 반영하는 데는 한계를 보였다. 인간 사용자는 기존 애플리케이션과 비교해 사용성을 평가하는 경향이 강했다. 예를 들어 “이전 앱에서는 더 직관적으로 조작할 수 있었는데 이번 앱은 조작 방식이 다소 불편하다”는 피드백을 제공했다. 그러나 심유저는 이런 비교를 바탕으로 피드백을 생성하는 데는 어려움을 보였다. 또한 최신 UX 트렌드를 반영하는 데도 한계가 드러났다. 예를 들어 대학생 사용자 그룹은 스마트워치에서 맞춤형 제스처 조작 방식이 더 자연스럽다고 평가했으나 심유저는 이에 대한 피드백을 충분히 제공하지 못했다. 이는 AI 모델이 최신 기술 트렌드와 사용자 기대를 충분히 반영하는 데는 한계가 있음을 보여준다.
연구 결과가 어떤 교훈을 주나?AI 기반 사용성 평가 도구 도입은 기업의 제품 개발 프로세스를 효율화하고 사용자 중심 설계를 강화하는 데 기여할 수 있다. 기존의 사용자 테스트는 피드백 수집과 분석에 많은 시간과 비용이 소요되지만 AI 기반 솔루션은 이런 문제를 해결할 대안이 될 수 있다. 특히 심유저와 같은 AI 시스템은 프로토타입 개발 초기부터 사용성 문제를 감지해 제품 출시 전에 신속한 개선이 가능하도록 돕는다. 또한 AI는 특정 문화권이나 연령대의 사용자 경험을 시뮬레이션할 수 있어 글로벌 시장에서 다양한 사용자 그룹에 대한 제품 적응성을 평가하는 데 유용하게 활용될 수 있다.
또한
심유저 같은 AI 기술은 사용자 데이터와 AI를 결합해 제품 개발 프로세스를 정교하게 만들 수 있다. 앞으로 AI는 단순한 정적 사용성 테스트를 넘어 사용자의 감정, 행동 패턴, 개인화된 경험까지 예측하는 방향으로 발전할 가능성이 크다. 이를 통해 기업은 고객 중심 설계를 더욱 강화하고 제품 출시 후에도 사용자 피드백을 실시간으로 반영해 지속적인 개선이 가능한 구조를 구축할 수 있다. 특히 AI 기반 사용성 분석을 실시간으로 활용하면 출시 이후에도 자동화된 UX 개선이 가능해져 경쟁력을 높일 수 있을 것이다.한편 제품의 직관적 경험, 감성적 반응, 트렌드 변화 등을 AI가 완벽하게 반영하는 데는 한계가 있기에 비즈니스 리더들은 AI가 제공하는 데이터와 인간 연구의 질적 데이터를 균형 있게 활용할 필요가 있다. AI를 활용해 광범위한 초기 피드백을 신속하게 수집한 후 인간 중심의 사용자 테스트를 통해 정성적 인사이트를 보완하는 방식이 가장 효과적인 접근법이 될 수 있다. 이를 통해 AI의 속도와 데이터 분석 능력을 활용하면서도 인간의 직관과 감성을 반영한 UX 설계를 구현할 수 있을 것이다.