비즈니스 BD 채용 중, 빨리 저희와 함께하세요! 【자세히 보기】
API RootData 앱 다운로드

Founders Fund, Pantera와 Franklin Templeton이 Sentient의 "Arena"에 참여하여 기업급 AI 인공지능을 스트레스 테스트합니다

2026-02-27 22:37:19

공유하십시오

过去两年里,企业一直在加速把 AI 智能体引入真实工作流程:从客服、后台运营,到金融与合规等需要高强度决策的流程。随着这些系统越来越多地被嵌入实际业务,一个新问题正在浮现:智能体能够检索信息,但当工作变得"脏"、多步骤、或高风险时,它们往往难以给出稳定、可解释、可复现的推理过程。

오늘, 오픈소스 AI 연구소 Sentient가 Arena를 공식 출시했습니다------전 세계 수천 명의 AI 개발자를 위한 실시간, 생산 수준의 환경으로, 다양한 기업의 가장 어려운 추론 문제에 대한 스트레스 테스트 및 경쟁적 반복을 수행하는 데 사용됩니다. Arena 초기 단계의 첫 번째 참여자는 Founders Fund, Pantera, 그리고 15조 달러 이상의 자산을 관리하는 Franklin Templeton(프랭클린 템플턴)------이는 기관들이 "배포 전에 AI 에이전트에 대한 구조적 평가를 수행하는 것"에 대해 초기의 명확한 관심을 보이고 있음을 알리는 신호입니다.

"기업이 AI 에이전트를 연구, 운영 및 고객을 위한 워크플로에 적용할 때, 문제는 이러한 시스템이 충분히 강력한지가 아니라… 실제 워크플로에서 신뢰할 수 있는가입니다." Franklin Templeton Digital Assets(프랭클린 템플턴 디지털 자산) 관리 파트너 Julian Love가 말했습니다. Love는 Arena와 같은 구조화된 환경이 산업이 "잠재적인 아이디어"와 "실제로 생산에 사용할 수 있는 능력"을 구분하는 데 도움을 줄 것이라고 덧붙였습니다.

Sentient 공동 창립자 Himanshu Tyagi는 "AI 에이전트가 기업 내에서 더 이상 실험이 아니라 고객, 자금 및 운영 결과에 영향을 미치는 핵심 프로세스에 들어가고 있습니다. 이러한 변화는 평가 기준을 변화시킵니다. 시스템이 데모에서 멋져 보이는 것만으로는 충분하지 않습니다. 기업은 생산 환경에서 실패의 비용이 높고 신뢰가 매우 취약할 때, 에이전트가 여전히 안정적으로 추론할 수 있는지를 알아야 합니다. 기업은 비교 가능성, 반복 가능성, 그리고 기본 모델이나 도구 스택에 의존하지 않고 신뢰성 향상을 장기적으로 추적할 수 있는 방법이 필요합니다."라고 말했습니다.

Arena는 기업 워크플로의 실제 혼란을 시뮬레이션합니다: 정보가 불완전하고, 맥락이 길며, 지시가 모호하고, 출처가 상충합니다. Arena는 에이전트가 "정확한 답변"을 제공하는지 평가하는 것뿐만 아니라, 엔지니어 팀이 실패 원인을 파악하고 개선이 효과적인지를 장기적으로 검증할 수 있도록 전체 추론 경로(reasoning trace)를 기록합니다.

이는 모델 간, 기술 스택 간의 추론 평가를 위한 중립적이고 공급업체에 구애받지 않는 벤치마크(vendor-agnostic benchmark)를 제공합니다. Arena는 데모 성능이 아닌 생산 수준의 성능을 강조하여 검증 가능하고 고위험 시나리오에 적합한 에이전트 능력을 형성하며, 기업은 이러한 능력을 자신의 개인 데이터 및 내부 도구로 이전할 수 있습니다.

첫 번째 도전에서 Arena에 참여하는 개발자는 기업 수준의 기본 문제인 문서 추론(document reasoning)에 집중할 것입니다. AI 에이전트는 복잡하고 비구조화된 데이터에 대해 추론 및 계산을 수행해야 하며------이러한 작업은 금융 분석, 근본 원인 조사, 투자 메모 작성, 고객 서비스 등 시나리오의 기본 지원을 제공합니다.

초기 단계의 다른 참여자는 alphaXiv, Fireworks, OpenHands, OpenRouter 등이 있으며; Arena가 작업, 산업 및 모델 통합에서 확장됨에 따라 더 많은 참여자가 합류할 것으로 예상됩니다.

최근 조사에서도 Arena가 해결하고자 하는 격차가 부각되었습니다: 85%의 기업이 "에이전트 기업(agentic enterprises)"이 되고 싶다고 응답했으며, 거의 4분의 3이 자율 에이전트를 배포할 계획이지만, 성숙한 거버넌스 시스템을 갖춘 기업은 4분의 1도 되지 않았습니다; 많은 기업이 파일럿을 대규모 생산 배포로 확장하는 데 어려움을 겪고 있습니다. 기업은 평균적으로 약 10개의 에이전트를 운영하고 있으며, 일반적으로 각기 고립된 시나리오에 분산되어 있습니다; 많은 기업은 더 나은 조정 및 협업 능력이 없다면 에이전트를 계속 추가하는 것이 복잡성만 증가시키고 가치는 오히려 감소할 것이라고 생각하고 있습니다.

"OpenHands에서는 개발자가 실제적이고 실용적인 문제를 해결하기 위해 에이전트를 사용하는 것을 항상 기꺼이 지원해왔습니다." OpenHands의 수석 과학자이자 공동 창립자 Graham Neubig가 말했습니다. "우리는 또한 참가자들이 이러한 복잡한 도전에 대응하기 위해 OpenHands Software Agent SDK를 사용하는 것을 지원하게 되어 기쁩니다."

OpenRouter의 공동 창립자이자 CEO Alex Atallah은 "Arena는 오픈소스 AI를 발전시키는 프로그램입니다------연구자들이 공개 환경에서 경쟁하고, 반복하고, 혁신할 수 있게 합니다. 우리는 Sentient와의 협력을 심화하고 실험을 더 빠르고 쉽게 확장할 수 있는 인프라를 제공하기를 기대합니다."라고 말했습니다.

Arena는 전 세계적으로 시작되며, 수천 명의 AI 개발자가 첫 번째 한정 대열에 신청하도록 초대하며, 2026년 3월부터 샌프란시스코에서 오프라인 이벤트를 개최할 예정입니다.

Sentient Labs에 대하여

Sentient Labs는 오픈소스 AI의 발전을 촉진하는 선도적인 기술 연구 및 제품 조직입니다. Sentient Foundation의 혁신 엔진으로서, Sentient Labs는 AI 추론, 정렬 및 에이전트 협업 등 분야에서 최전선 연구를 수행합니다. Sentient는 ROMA와 같은 고성능 프레임워크 및 Dobby와 같은 오픈소스 모델의 핵심 개발자입니다. Sentient의 사명은 오픈소스 AI를 "실험"에서 "필수"로 전환하는 것입니다. 강력하고 조합 가능한 에이전트 시스템을 구축하기 위한 인프라를 제공함으로써, Sentient는 개발자가 오픈소스 도구를 상업화하고 기업 수준의 사용 가능성을 달성할 수 있도록 합니다. Sentient는 오픈소스가 전 세계의 주요 임무 AI 운영의 기본 표준이 되도록 추진하고 있습니다.

펀딩 정보

더보기
-- 02-26
$4M 02-26
$30M 02-26

최근 출시 토큰

더보기
02-27
02-26
02-26