Visualização de leitura

AWS 코리아 “목표·데이터·가드레일·실행”…AI 성공 4대 조건 제시

이번 간담회에서 발표를 맡은 라훌 파탁 AWS 데이터 및 인공지능(AI) GTM 부문 부사장은 “2026년은 에이전트의 해가 될 것”이라며, AI가 단순한 도구를 넘어 기업 운영 전반에 실질적인 변화를 가져오는 핵심 인프라로 자리 잡고 있다고 강조했다.

파탁 부사장은 실제 고객 사례 분석을 바탕으로, AI 프로젝트가 성공적으로 프로덕션 단계에 도달하기 위한 네 가지 핵심 요소로 ▲명확한 비즈니스 목표 ▲데이터 정합성 ▲가드레일(보안·거버넌스) ▲빠른 실행을 꼽았다.

그는 특히 “가장 많은 실패는 이 네 가지 원칙에서 벗어날 때 발생한다”며, 목표 없이 광범위한 AI 적용을 시도하거나, 현대화와 혁신을 순차적으로 진행하려는 접근이 대표적인 실패 요인이라고 지적했다.

이어 “모든 유즈케이스를 한 번에 해결하려 하기보다, 중요한 몇 가지 문제에 집중해 빠르게 성과를 만들고 조직 내 모멘텀을 확보하는 것이 중요하다”고 조언했다.

AWS는 이날 에이전트 기반 AI 아키텍처를 핵심 전략으로 제시했다. 파탁 부사장은 “단일 모델이 모든 것을 처리하는 시대는 끝났다”며, 여러 AI 에이전트와 기능을 조합하는 ‘멀티 에이전트 워크플로우’가 새로운 표준으로 자리 잡고 있다고 설명했다.

예를 들어, 기업 IT 환경을 분석하는 에이전트가 보고서를 생성하면, 이를 기반으로 코드 생성 도구가 자동으로 애플리케이션을 구축하고, 이후 데브옵스 에이전트가 운영 안정성을 점검하는 식으로 전체 개발·운영 과정이 연결된다는 것이다.

이러한 흐름을 지원하기 위해 AWS는 아마존 베드록(Amazon Bedrock), 에이전트 코어(Agent Core), 아마존 세이지메이커(Amazon SageMaker) 등으로 구성된 ‘에이전트 AI 스택’을 제공하고 있으며, AWS 마켓플레이스를 통해 1,000개 이상의 에이전트를 공급하고 있다고 밝혔다.

기업들이 AI에서 기대하는 가치도 빠르게 변화하고 있다. 파탁 부사장은 “고객들은 더 이상 수개월을 기다리지 않고, 도입 첫날부터 성과를 원한다”며, AI의 핵심 가치는 ‘추론(inference)’ 단계에서 발생한다고 언급했다.

이에 따라 AWS는 클라우드 기반에서 혁신과 현대화를 동시에 진행할 수 있는 구조를 제공하고 있으며, 이를 통해 기업들이 빠르게 비즈니스 성과를 확보할 수 있도록 지원한다는 전략이다.

이날 간담회에서는 AWS 코리아의 파트너 전략도 공개됐다. 방희란 AWS 코리아 파트너 부문 총괄은 파트너 조직을 통합해 세일즈와 매니지먼트를 일원화했다고 밝히며, 보다 긴밀한 협업 구조를 구축했다고 설명했다.

AWS는 2025년 4분기 기준 24% 성장과 함께 연간 약 1,420억 달러 규모를 기록했으며, 파트너 생태계 역시 동반 성장하고 있다고 강조했다.

특히 파트너는 단순 리세일을 넘어 ▲운영 ▲구축 ▲설계 등 고부가가치 영역으로 확장할수록 수익성이 높아지는 구조로 진화하고 있으며, AWS는 이를 지원하기 위해 마켓플레이스와 데이터 기반 협업 체계를 강화하고 있다.

AWS는 제조, 금융, 헬스케어 등 산업별 AI 적용 사례도 소개했다. 예를 들어 제조 분야에서는 AI 기반 자동화로 도면 작성 시간을 최대 90% 단축했고, 금융 분야에서는 보고서 작성 시간을 80% 줄이는 성과를 달성했다.

방 총괄은 “AI 자체보다 중요한 것은 산업 도메인 지식과의 결합”이라며 “파트너가 특정 산업에서 깊이 있는 전문성을 확보하는 것이 핵심 경쟁력”이라고 밝혔다.
jihyun.lee@foundryco.com

“2026년 물량 전부 달라” 고객 몰린 AWS, 자체 칩 전략 가속

아마존웹서비스(AWS)의 칩 사업은 “불타오르고 있다”고 평가받고 있다. 트레이니움은 엔비디아 대비 더 나은 가격 대비 성능을 제공하고 있으며, 고객은 AI 컴퓨팅 용량을 확보하기 위해 현재 이용 가능한 물량을 모두 사들이려 할 정도로 적극적인 모습을 보이고 있다.

이 같은 내용은 아마존 최고경영자 앤디 재시가 2025년 연례보고서에 담긴 8페이지 분량의 주주 서한에서 밝힌 핵심 메시지다.

재시는 기업이 AI에 전면적으로 투자하고 있다는 점을 강조하는 한편, AI가 전기만큼 혁신적인 기술이 될 것이라고 평가하며 해당 분야를 선도하겠다는 아마존의 의지를 분명히 드러냈다.

컨설팅 기업 인포테크 리서치 그룹의 자문 연구원 스콧 비클리는 “종합해 보면 AWS는 전력, 데이터센터, 중간 계층의 맞춤형 실리콘, 최상단의 학습과 추론에 이르기까지 AI 스택 전반을 아우르며 보다 깊이 통제하려 하고 있다”고 분석했다.

대형 고객, 추론 수요 급증

재시는 주주 서한에서 AWS가 2025년 한 해 동안 3.9기가와트(GW)의 신규 전력 용량을 추가했으며, 2027년 말까지 전체 전력 용량을 두 배로 확대할 계획이라고 밝혔다. 그러면서도 “여전히 용량 제약으로 인해 충족되지 못한 수요가 존재한다”고 설명했다.

특히 재시는 대형 고객 두 곳이 AI 연산 자원을 대규모로 필요로 하면서, AWS의 자체 CPU 칩인 그래비톤의 2026년 전체 인스턴스 용량을 모두 구매하겠다고 요청했다고 공개했다. 다만 다른 고객의 수요를 고려할 때 이러한 요청을 수용할 수는 없다고 분명히 했다.

또 다른 컨설팅 기업 무어인사이트앤스트래티지의 부사장 겸 수석 애널리스트 맷 킴벌은 “두 대형 고객이 2026년 그래비톤 전체 용량을 사들이겠다고 나선 사실은 현재 시장 상황을 단적으로 보여준다”고 분석했다.

킴벌은 이를 단순한 공급망 문제로만 보기는 어렵다고 진단했다. 기업이 단순히 컴퓨팅 자원을 구매하는 차원을 넘어, 경쟁사보다 먼저 용량을 확보하려는 ‘전략적 의존성’ 확보에 나서고 있다는 설명이다. 킴벌은 “AWS의 위험은 인프라를 충분히 빠르게 구축하지 못하는 데 있다기보다, 용량 제약을 느낀 고객이 애저나 구글 클라우드 플랫폼(GCP)으로 일부 수요를 분산하는 상황에 있다”고 짚었다.

이 같은 움직임은 그래비톤의 인기가 크게 높아졌음을 보여주는 동시에, AWS가 수요를 모두 소화하기 어려운 상황일 수 있음을 시사한다. 그래비톤은 더 이상 ‘가벼운 워크로드를 지원하는 경량 칩’에 머무르지 않고, 다양한 연산 특성을 요구하는 폭넓은 워크로드에 활용되고 있다고 킴벌은 설명했다.

또한 애저 코발트와 구글 클라우드 액시온 프로세서 역시 성숙 단계에 접어들면 유사한 수요를 경험할 가능성이 높다고 내다봤다. 이는 Arm과 x86 기술 간 경쟁 구도에 흥미로운 시장 역학을 형성할 것이라고 덧붙였다.

인포테크 리서치 그룹의 비클리 역시 공급망 제약이 AI 인프라 확장 전반에 미치는 영향이 광범위하고 깊다고 평가했다. 2026년 계획된 AI 데이터센터 용량의 50%가 실제로는 실현되지 않을 것이라는 전망이 나오는 상황에서도, “사실상 모든 용량이 전반적으로 매진된 상태”라고 전했다.

트레이니움의 경쟁력

재시는 2026년을 앞두고 아마존의 칩 사업이 “불타오르고 있다”고 평가했다. AWS가 반도체 기업 엔비디아와 긴밀한 협력 관계를 유지하며 해당 반도체를 활용하고 있지만, 고객이 더 나은 가격 대비 성능을 요구하면서 프로세서 시장에 새로운 변화가 나타나고 있다고 설명했다.

아마존은 2024년 말 자체 AI 실리콘 2세대 제품인 트레이니움2를 출시했다. 현재 베드록은 대부분의 추론 작업을 이 차세대 가속기에서 실행하고 있다. 재시는 트레이니움2가 유사한 GPU 대비 약 30% 더 우수한 가격 대비 성능을 제공하며, 현재 상당 물량이 이미 판매된 상태라고 전했다.

최근 출하를 시작한 트레이니움3는 트레이니움2보다 30~40% 더 개선된 가격 대비 성능을 제공하며, 이미 대부분의 용량이 예약됐다고 밝혔다. 또한 본격적인 대량 공급까지 약 18개월이 남은 트레이니움4 역시 상당 부분이 사전 예약된 상태라고 설명했다.

재시는 “우리 칩에 대한 수요가 매우 높아 향후에는 제3자에게 랙 단위로 판매하는 방안도 가능할 수 있다”고 언급했다.

인포테크 리서치 그룹의 비클리는 아마존의 전략이 엔비디아를 배제하는 데 있다기보다, AWS가 경제성 측면에서 경쟁력을 확보할 수 있는 영역에서 엔비디아 기술 의존도를 낮추려는 데 있다고 분석했다.

비클리는 AWS가 여전히 엔비디아의 핵심 파트너이지만, 가격 대비 성능을 기반으로 차별화된 가치를 제시할 수 있다고 평가했다. 베드록과의 긴밀한 통합, AWS가 설계한 인터커넥트, 효율적인 토큰 경제성, 표준 PyTorch·JAX·vLLM 워크플로를 기반으로 한 소프트웨어 스택을 결합해 종합적인 패키지를 제공하고 있다는 설명이다.

트레이니움의 주요 활용 분야는 수천억 개에서 1조 개 이상의 파라미터를 갖는 대규모 언어모델(LLM), 멀티모달 모델, 디퓨전 트랜스포머의 학습과 추론이다.

비클리는 앤스로픽과 우버 같은 주요 기업이 AWS의 효율성 주장을 실제 환경에서 검증하고 있다고 전했다. 반면 코히어와 스태빌리티 AI는 성숙한 툴링 프레임워크와 우수한 칩 설계를 이유로 엔비디아를 선호하고 있으며, AWS의 서비스 및 가용성 문제를 언급하고 있다고 설명했다.

무어인사이트앤스트래티지의 킴벌은 AWS와 미국의 AI 반도체 설계 기업 세레브라스(Cerebras)의 파트너십도 주목할 요소라고 짚었다. 트레이니움은 프리필에, 세레브라스 CS-3는 디코드에 각각 최적화돼 있어 두 기술을 결합하면 사용자 개입 없이도 높은 추론 성능을 제공할 수 있다는 설명이다. 킴벌은 “기업 사용자가 원하는 것은 이러한 ‘포인트 앤 클릭’ 수준의 단순성”이라고 평가했다.

킴벌은 그래비톤이 x86 생태계에 가져온 변화와 트레이니움이 엔비디아에 미치는 영향을 직접적으로 연결 지을 수 있다고 분석했다. 추론은 기업 AI에서 가장 빠르게 성장하면서 비용 민감도가 높은 워크로드이며, 바로 그 지점에서 트레이니움이 빠르게 입지를 넓히고 있다는 설명이다.

추론 엔진 ‘맨틀’에서 얻은 교훈

재시는 “방향을 재설정하기 위해 출발선으로 돌아갈 수 있는 역량”의 중요성도 강조했다. 베드록은 예상보다 빠르게 구축·확장됐지만, 단순한 조정이 아니라 완전히 다른 유형의 추론 엔진이 필요하다는 점을 팀이 인식하게 됐다고 밝혔다.

이에 따라 베드록 팀은 AWS의 에이전트 기반 코딩 서비스 키로를 활용해 6명의 숙련된 엔지니어로 구성된 소규모 팀을 꾸렸고, 76일 만에 새로운 엔진 ‘맨틀(Mantle)’을 개발했다. 맨틀은 이후 베드록의 핵심 기반으로 자리 잡았으며, 재시에 따르면 2026년 1분기에 처리한 토큰 수가 이전 모든 연도를 합친 것보다 많았다.

비클리는 소규모 팀이 짧은 기간 안에 대규모 재구축을 수행하고, 상태 기반 대화 관리, 비동기 추론, 기본 할당량 상향 등 다양한 기능을 추가한 점은 인상적이라고 평가했다. 맨틀은 독자적인 추론 제품으로 간주할 수 있을 만큼 중요한 의미를 갖는다고 분석했다. 또한 AWS가 별도의 게시글을 통해 보안과 거버넌스 측면에 대한 신뢰를 강화하려는 점도 주목할 부분이라고 설명했다.

킴벌은 맨틀의 탄생을 두 가지 관점에서 해석했다. 하나는 운영상의 필요성으로, 베드록에 새로운 아키텍처가 요구됐다는 점이다. 다른 하나는 생산성 압축 효과다.

킴벌은 “에이전트 도구를 활용한 6명의 엔지니어가 기존 40명으로는 더 빠르게 수행하지 못했을 작업을 해냈다면, 팀 규모와 프로젝트 일정, 자체 구축과 외부 도입에 대한 판단 기준이 근본적으로 달라진다”고 분석했다. 이어 “토큰 처리량 수치가 그 결과를 분명하게 보여준다”고 전했다.

맨틀은 단순한 재구축 사례를 넘어, AI 지원 개발이 실제 운영 환경에서 어떤 변화를 만들어내고 있는지를 보여주는 사례로 평가된다. 킴벌은 “이론이나 마케팅 구호 차원이 아니라, 실제 프로덕션 환경에서 벌어지고 있는 변화”라고 설명했다.

재시는 “진전은 선형적으로 이뤄지지 않는다”며 “가속하는 순간도 있고 방향을 조정해야 하는 시점도 있다. 중요한 영역에는 과감히 투자하고, 효과가 없는 부분은 과감히 축소할 것”이라고 밝혔다.
dl-ciokorea@foundryco.com

AI demand is so high, AWS customers are trying to buy out its entire capacity

The Amazon Web Services (AWS) chip business is “on fire,” Trainium offers better price-performance than Nvidia, and customers are so eager for AI compute capacity that they’re looking to buy up all that’s currently available.

These are the takeaways shared by Amazon CEO Andy Jassy in his eight page letter to shareholders in the tech giant’s 2025 annual report.

Jassy’s comments underscore how all-in enterprises are for AI, and Amazon’s ambitions to dominate a technology that, as he described it, will be as transformative as electricity.

Noted Scott Bickley, advisory fellow at Info-Tech Research Group, “pulling it all together, AWS is diving deeper to control the AI stack comprehensively through every layer: power, data center, custom silicon in the middle, and training and inference at the top.”

Big inference asks from customers

AWS added 3.9GW of new power capacity in 2025 and expects to double its total power capacity by the end of 2027, Jassy wrote to shareholders. “Yet we still have capacity constraints that yield unserved demand,” he said.

Notably, he revealed that two large customers are in such need of AI compute that they asked to buy all available 2026 instance capacity for AWS’ custom CPU chip, Graviton. He emphasized that AWS can’t agree to those kinds of requests, given other customer needs.

Matt Kimball, VP and principal analyst at Moor Insights & Strategy, noted, “two large customers asking to buy all of AWS’s Graviton capacity for 2026 says everything we need to know about where the market is.”

It’s not necessarily just a supply chain story, though, he said; it’s more of a “strategic dependency” story. Enterprises aren’t just shopping for compute, they’re trying to lock up capacity before a competitor does. “The risk for AWS isn’t failing to build fast enough. It’s more along the lines of constrained customers maybe hedging toward Azure or Google Cloud Platform (GCP),” he pointed out.

This also indicates how popular Graviton has become, and suggests that AWS might be struggling to meet demand. Rather than “lightweight chips supporting lightweight workloads,” Graviton is being used across workloads “with a variety of computational profiles,” said Kimball.

As they mature, Azure Cobalt and Google Cloud Axion processors will likely see the same kind of demand, which will make for an “interesting market dynamic” between Arm and x86 technologies, he said.

Info-Tech’s Bickley agreed that the impact of supply chain constraints is “broad and deep” in its effect on AI buildout. Even in the midst of reports that 50% of planned AI data center capacity will not materialize in 2026, “everything is sold out across the board.”

Trainium’s competitive edge

Going into 2026, Jassy described Amazon’s chip business as “on fire.” While AWS has a strong partnership with Nvidia and uses its semiconductors, there is what he called a “new shift” in the processor landscape as customers seek out better price-performance.

Notably, Amazon released the second generation of its custom AI silicon, Trainium2, in late 2024, and Bedrock now runs most of its inference on these next-generation accelerators. Jassy claimed Trainium2 offers roughly 30% better price-performance than comparable GPUs, and is “largely sold out.”

Meanwhile, Trainium3, which just began shipping, is 30% to 40% more price/performant than Trainium2, and is already “nearly fully-subscribed,” he said. Further, a significant chunk of Trainium4 capacity, which is still about 18 months from broad availability, has been reserved.

“There’s so much demand for our chips that it’s quite possible we’ll sell racks of them to third parties in the future,” Jassy said.

Info-Tech’s Bickley pointed out that Amazon is not necessarily trying to eliminate Nvidia so much as reduce its dependence on the chip leader’s technology in areas “where AWS can win on economics.”

While AWS remains a strong Nvidia partner, it can provide a differentiated value proposition based on price-performance, he said. AWS brings a “holistic package” via tight integration with Bedrock, AWS-designed interconnects, more efficient token economics, and a software stack built on standard PyTorch/JAX/vLLM workflows.

Trainium’s prime use cases are training and inference for large language models (LLMs), multimodal models, and diffusion transformers in the hundreds of billions to trillion-plus parameter range, Bickley explained.

Marquee names like Anthropic and Uber are “putting AWS’s efficiency claims to the test,”  he noted; on the other hand, customers like Cohere and Stability AI prefer Nvidia’s mature tooling framework and “superior chip designs,” citing AWS service and availability issues.

Moor’s Kimball pointed out that another factor to consider is AWS’ partnership with Cerebras. Trainium is optimized for prefill and Cerebras CS-3 is optimized for decode, allowing the two to deliver what they claim is the best inference performance with no user intervention required. “This is the kind of ‘point-and-click’ simplicity enterprise users are looking for,” he said.

Ultimately, Jassy is drawing a direct line from what Graviton did to x86 to what Trainium is doing to Nvidia, he said. Inference is the “fastest-growing and most cost-sensitive workload in enterprise AI, and that’s exactly where Trainium is gaining the most ground.”

Learning from the Mantle scale-up

Jassy also emphasized the importance of being able to go back to the starting line to “redirect the trajectory.” For instance, Amazon Bedrock was built rapidly and scaled “faster than expected,” and the team realized it required a whole different type of inference engine, not just a tweak.

The Bedrock team quickly spun up a group of six “very skilled engineers” using AWS’ agentic coding service, Kiro, to deliver a new engine, Mantle, in 76 days. Mantle has since become the backbone of Bedrock, which processed more tokens in Q1 2026, Jassy claimed, than had been processed in all prior years combined.

The ability for a small team to accomplish such a large rebuild in such a short time frame, alongside adding features such as stateful conversation management, asynchronous inference, and higher default quotas, among others, is “impressive at first blush,” noted Info-Tech’s Bickley.

“The takeaway is that Mantle should be considered a key product for inference in its own right,” he said. And a separate AWS engineering post seeks to add confidence in the model’s security and governance considerations, Bickley explained.

Moor’s Kimball called the genesis of Mantle “really two stories.” One is operational (Bedrock needed a new architecture); the other is productivity compression.

“If six engineers with agentic tools can do what 40 couldn’t have done faster, the calculus on team size, project timelines, and build-vs-buy decisions shifts fundamentally,” he said. “The token volume numbers make the outcome clear and compelling.”

But Mantle isn’t just a rebuild, it’s yet another proof point that AI-assisted development is changing what’s possible. “Not just in theory or some marketing slogan,” Kimball said, “but in production.”

Jassy noted, “progress will not be linear. There will be moments of acceleration and moments where we adjust course. We will experiment, invest disproportionately behind what matters, and pull back when something isn’t working.”

This article originally appeared on NetworkWorld.

AWS Data Centers Hit: Drone Strikes Cripple Cloud

AWS says drone strikes damaged data center facilities in the UAE and Bahrain, disrupting and degrading dozens of cloud services across the Middle East.

The post AWS Data Centers Hit: Drone Strikes Cripple Cloud appeared first on TechRepublic.

❌