Visualização normal

Antes de ontemStream principal
  • ✇Security | CIO
  • 칼럼 | AI ROI의 진짜 변수는 기술 아닌 ‘조직 설계’
    AI에 가장 많은 투자를 하는 조직일수록 오히려 창출하는 가치는 가장 적은 경우가 많다. 이 같은 역설은 AI가 실제로 가치를 만들어내는지에 대한 논쟁을 키우고 있다. 그러나 이는 본질적인 질문이 아니다. 업무 단위에서는 이미 충분한 근거가 축적돼 있다. 코딩, 글쓰기, 분석, 고객 지원 등 다양한 영역에서 AI가 측정 가능한 생산성 향상을 만들어낸다는 사실이 반복적으로 입증되고 있다. 다만 이러한 성과가 기업 전체의 재무 성과로 이어지지 않는 것이 문제다. MIT 연구에 따르면 전체 AI 파일럿 프로젝트의 95%가 초기 단계에서 손익계산서(P&L)에 의미 있는 영향을 주지 못한 것으로 나타났다. 맥킨지 역시 전체 응답 기업 가운데 약 6%에 해당하는 고성과 기업만이 AI를 통해 EBIT의 5% 이상을 창출했다고 분석했다. 보스턴컨설팅그룹(BCG)은 AI 전환 프로젝트의 약 60%가 제한적이거나 실질적인 가치 창출에 실패했다고 분
     

칼럼 | AI ROI의 진짜 변수는 기술 아닌 ‘조직 설계’

23 de Abril de 2026, 23:15

AI에 가장 많은 투자를 하는 조직일수록 오히려 창출하는 가치는 가장 적은 경우가 많다. 이 같은 역설은 AI가 실제로 가치를 만들어내는지에 대한 논쟁을 키우고 있다. 그러나 이는 본질적인 질문이 아니다. 업무 단위에서는 이미 충분한 근거가 축적돼 있다. 코딩, 글쓰기, 분석, 고객 지원 등 다양한 영역에서 AI가 측정 가능한 생산성 향상을 만들어낸다는 사실이 반복적으로 입증되고 있다.

다만 이러한 성과가 기업 전체의 재무 성과로 이어지지 않는 것이 문제다. MIT 연구에 따르면 전체 AI 파일럿 프로젝트의 95%가 초기 단계에서 손익계산서(P&L)에 의미 있는 영향을 주지 못한 것으로 나타났다. 맥킨지 역시 전체 응답 기업 가운데 약 6%에 해당하는 고성과 기업만이 AI를 통해 EBIT의 5% 이상을 창출했다고 분석했다. 보스턴컨설팅그룹(BCG)은 AI 전환 프로젝트의 약 60%가 제한적이거나 실질적인 가치 창출에 실패했다고 분석했다.

결국 공통된 흐름은 분명하다. 파일럿 단계에서는 성과가 확인되지만, 이를 조직 전체로 확장하는 과정에서 가치가 제대로 이어지지 않는다.

한편 대기업과 중소기업 간 AI 도입 격차는 빠르게 좁혀지고 있다. 미국 중소기업청(SBA) 데이터에 따르면 2023년 11월부터 2025년 8월까지 AI 도입률은 양측 모두에서 꾸준히 증가했다. 대기업은 6% 미만에서 12% 이상으로, 중소기업은 약 4%에서 8% 이상으로 상승했다. 여전히 대기업이 높은 수준을 유지하고 있지만, 중소기업의 도입 속도가 빨라지면서 격차는 점차 축소되는 추세다.

‘엣지’에선 작동, ‘코어’에선 정체되는 AI

대기업에서 AI 도입률이 빠르게 높아지고 있음에도 불구하고, 실제 운영 환경에 들어간 AI는 쉽게 자리 잡지 못한다. 수십 년간 축적된 시스템과 규제 체계, 다층적인 거버넌스, 그리고 부서 간 복잡한 의존성이 얽혀 있기 때문이다. AI는 도입 이후 보안 검토, 구매 절차, 법률 심사, 아키텍처 위원회 검토, 레거시 시스템 연동 제약 등 다양한 관문을 통과해야 한다. 각각의 절차는 필요에 의해 존재하지만, 이들이 결합되면 변화 속도를 늦추고 효과를 분산시키는 요인이 된다.

특정 부서 단위에서는 AI 파일럿이 성과를 보일 수 있다. 그러나 이를 조직 전체로 확장하려는 순간 기존 운영 모델과 충돌한다. 데이터 소유권, 책임 구조, 의사결정 권한이 명확하지 않을 경우 확장 비용은 더욱 커진다. 결국 제한된 환경에서 효과를 보였던 AI는 조직 단위로 확장되는 과정에서 멈춰 서고, 기대했던 가치는 규모화 과정에서 사라진다.

중소기업 역시 나름의 어려움을 안고 있다. 자금 흐름 제약, 제한된 인력, 고객 리스크 등이 대표적이다. 다만 의사결정 과정에서의 ‘거부 지점’은 상대적으로 적다. 예를 들어 창업자가 AI 기반 견적 자동화나 후속 고객 응대 시스템을 실험하기 위해 별도의 범부서 위원회를 구성하는 경우는 드물다.

의사결정은 빠르게 이뤄지고, 피드백도 짧은 주기로 반복된다. 직원 한 명이 전체 생산성에서 차지하는 비중이 크기 때문에 변화의 효과도 즉각적으로 드러난다. 5명 규모 기업이 행정 업무의 20%를 자동화하면, 그 성과는 곧바로 측정 가능하다.

이들의 구조적 강점은 ‘단순함’이다. 레거시 시스템이 적고 의사결정 경로가 짧으며, 다층적인 거버넌스가 상대적으로 덜하다. SaaS 기반 솔루션도 빠르게 도입하고 큰 마찰 없이 통합할 수 있다. 이러한 특성이 더 나은 의사결정을 보장하는 것은 아니지만, 실행 속도를 높이는 데는 분명한 이점으로 작용한다.

AI ROI의 본질은 ‘조직의 준비 상태’

반대로 대기업은 높은 수준의 시스템 통합 요구와 정교한 거버넌스, 분산된 책임 구조를 갖추고 있다. 이는 운영 리스크를 줄이는 데는 효과적이지만, 새로운 기술 역량을 실제 재무 성과로 전환하는 속도를 늦추는 요인이 된다. AI 파일럿이 기술적으로는 충분한 가능성을 입증하더라도, 기업 전체의 경제적 성과를 끌어올리는 데는 실패하는 이유다.

이 때문에 경영진은 본질적인 선택에 직면하게 된다. 그러나 많은 경우 이를 회피하려 한다. AI ROI를 단순한 기술 문제로 규정하면 IT 조직이나 데이터 팀, 혁신 부서에 위임할 수 있기 때문이다. 반면 조직 설계의 문제로 접근하면 이야기가 달라진다. 이는 전사적인 변화 없이는 해결할 수 없다.

AI는 구조적 문제를 해소하기보다 오히려 증폭시키는 성격을 갖는다. 의사결정 권한이 불명확하면 그 문제가 더욱 선명해지고, 데이터 거버넌스가 취약하면 리스크는 확대된다. 보상 체계가 어긋나 있다면 그 불균형 역시 더 빠르게 심화된다. 결국 업무 단위에서의 생산성 향상이 기업 전체의 수익성 개선으로 자동 연결되지 않는 이유가 여기에 있다.

이 같은 현상은 새로운 것이 아니다. 인터넷 도입 초기에도 유사한 흐름이 나타났다. 기술 자체는 정상적으로 작동했지만, 기존 구조 위에 이를 덧붙인 기업이 아니라 조직을 재설계한 기업이 더 큰 성과를 거뒀다.

현재 AI 역시 같은 패턴을 보이고 있다. ROI를 제한하는 요인은 모델 성능이 아니라, 변화를 수용하고 확장할 수 있는 조직의 준비 상태다.

따라서 질문은 “AI가 왜 ROI를 만들지 못하는가”가 아니다. ROI는 AI가 아니라 조직이 만들어내는 것이기 때문이다. 진짜 질문은 조직이 일하는 방식과 의사결정 구조, 거버넌스, 성과 측정 방식을 재설계할 준비가 되어 있는가에 있다.

이러한 변화가 없다면 AI는 주변 업무의 생산성을 높이는 도구에 머무를 가능성이 크다. 반대로 조직이 이를 수용할 수 있다면, AI는 지속 가능한 경제적 가치를 창출하는 핵심 동력으로 자리 잡게 된다.
dl-ciokorea@foundryco.com

  • ✇Security | CIO
  • Ways CIOs can prove to boards that AI projects will deliver
    There’s been a wake-up call for CIOs. All the talk about perceived productivity boosts that have previously dominated conversations about AI has been replaced with a demand for measurable value from investments in emerging tech. As MIT states that project failure rates are as high as 95%, executive boards are starting to question when AI will pay dividends. PWC’s Global CEO Survey shows that more than half of companies have seen neither higher revenues nor lower costs fr
     

Ways CIOs can prove to boards that AI projects will deliver

22 de Abril de 2026, 07:00

There’s been a wake-up call for CIOs. All the talk about perceived productivity boosts that have previously dominated conversations about AI has been replaced with a demand for measurable value from investments in emerging tech.

As MIT states that project failure rates are as high as 95%, executive boards are starting to question when AI will pay dividends. PWC’s Global CEO Survey shows that more than half of companies have seen neither higher revenues nor lower costs from AI, and only one in eight have achieved positive outcomes.

While Gartner predicts significant growth in AI spending this year, John-David Lovelock, distinguished VP analyst at the research firm, says the lack of tangible returns means digital leaders are changing tack. Rather than hoping their AI explorations will produce returns, CIOs are switching to more targeted initiatives.

“The projects growing quickly are the ones doing business, and those initiatives include AI,” he says. “CIOs are starting to de-emphasize AI and re-emphasize business. These projects are about AI enhancing existing work and moving away from moonshot transformational projects.”

Lenovo’s CIO Playbook for 2026, produced with tech analyst IDC, also suggests enterprises will get serious about AI deployments this year, with explorations replaced by production-level services that drive business transformation. With boards exerting pressure for measurable returns, Ewa Zborowska, research director at IDC, says more digital leaders want to use AI to enhance, innovate, and reinvent their organizations.

“CIOs aren’t just considering AI out of curiosity, they want to see what they can get out of it to grow the business,” she says. “AI adoption is much more about doing new things or taking a fresh approach to creating value rather than becoming more efficient at cost-cutting.”

Such is the clamor for value that Richard Corbridge, CIO at property specialist Segro, suggests that returns from AI are a main digital leadership priority: “If you discover, for example, that everyone in the organization used Copilot 10 times today, that might mean they’ve been more efficient,” he says. “But what have they actually done with the time they saved? How has saving time created value?”

CIOs will grapple with these questions during the next 12 months. With CEOs and boards becoming impatient for returns, digital leaders are working more with their bosses to define value. Successful CIOs fine-tune their arguments to ensure their projects are backed, and then demonstrate the value of their AI initiatives to the board.

Defining a valuable AI project

What’s clear is CIOs can’t deliver outputs from AI projects without input from their enterprise peers. IDC’s Zborowska says tighter cooperation across project ownership and KPIs ensure emerging technology investments are targeted at the right places.

This increased interaction between digital and business leaders also changes project aims. As stakeholders work closely together to generate value from AI, Zborowska expects executives to seek KPIs that stretch across operational concerns.

“I’d bet we see more non-financial aims over the next few years,” she says. “Executives will consider things such as are employees more engaged, has their work improved in any way, are AI implementations impacting customer experiences, and are internal decisions being made more efficiently.”

Martin Hardy, cyber portfolio and architecture director at the UK’s Royal Mail, agrees that defining valuable AI projects is all about finding the right focus. Effective deployments target processes in distinct areas, and business stakeholders must be part of the value-defining process.

“If we’re making decisions about legal documentation, AI is probably not there yet,” he says. “But if we can use AI to approve holidays, for instance, that might be something because if you have rules that say no more than two people off at a time, you could use AI to check about booking holidays without having to ask everyone in the office.”

For CIOs seeking value-generating use cases, Gartner’s Lovelock suggests AI can deliver results in key business areas such as boosting revenue, supporting decision-making, engaging staff, and improving experiences. He says the right path to AI exploitation correlates with Gartner’s enterprise technology adoption profiles, which group companies into a range of categories.

“The folks who are furthest forward, what we call the agile leaders in technology, are much more likely to drive AI to change the business,” he says. “The laggards on the other side are more likely to take on the technology that’s given to them by incumbent software providers, and use it in a prescriptive manner.”

Fine-tuning the use case

The challenge now is for digital leaders to work with their business peers to determine a more refined approach to AI deployment. For some CIOs, the value of AI is clear but the potential risks must be considered.

Take Dan Keyworth, executive director of performance technology and systems at McLaren Racing, whose focus is operational stability and race-day reliability. While he says being aware of developments in generative and agentic AI is crucial, the priority is tried-and-tested technologies rather than innovations that put performance at risk.

“Formula One is grounded in traditional machine learning and simulation,” he says. “Developing models has been a big part of our performance journey, and since the engine already existed, gen AI is the turbo that’s bolted on with more investment in AI.”

For other digital leaders, like Barry Panayi, group chief data officer at insurance firm Howden, success depends on keeping the human in the loop. Yes, automation can improve customer service, but rather than replacing staff, he wants to use AI to ensure Howden’s professionals have the right insight when they interact with clients.

“There’s absolutely no desire to use data to drive productivity by automating what we do with our customers,” he says. “This is a business where people speak to people. Our brokers need information that can give them an edge, and prove to their clients they understand the risks and can give them the best deals.”

Nick Pearson, CIO at technology specialist Ricoh Europe, adds that the use case for AI at his firm is two-fold: boosting operational productivity and improving customer processes. So he’s established a tri-party AI council with the head of service operations and the commercial manager in Spain. This council explores opportunities to buy, build, and reuse emerging tech.

“We’ve got a strategy that looks at where AI matters, which means exploring the technology we already have to boost internal productivity,” he says. “We’ve got a lot of people who know how to code and build things in Copilot Studio and other platforms, so let’s use that to increase productivity.”

Showing returns to the board

For Gartner’s Lovelock, the key lesson for CIOs eager to generate value from AI is to work with their peers and set desired outcomes before investing. “Most people start with the idea that more is more, and if you do that, you won’t get to the idea of quality,” he says.

That sentiment resonates with Segro’s Corbridge, who encourages digital leaders to start conversations with other professionals by focusing on value. Ask people how investing in an AI implementation will create value for them personally, for the wider business, and the customers the organization serves.

He says CIOs shouldn’t try to prove that AI works, but rather concentrate on how emerging tech adds value. That definition is so critical to Segro’s way of working that the organization uses the phrase proof of value rather than proof of concept.

“Most things work, but they might be more expensive,” he says. “For example, you might be able to use AI to transform how the organization uses spreadsheets, but that project might cost you $300,000. And if you’re currently paying someone $40,000 to do that work, and they’re happy doing it, then you have to question the value.”

Lessons are being learned, says IDC’s Zborowska, whose firm’s research suggests that half of AI POCs now transition into production. While some people might think this success rate isn’t impressive, the quantity a year ago was 10%. After several years of AI exploration, it appears CIOs and their businesses are now firmly focused on real returns.

“These numbers speak to the fact that companies are being more mature and mindful in how they allocate budgets,” she says. “They also support the main theme that we’re on a journey to transformation and a maturing market for AI adoption.”

  • ✇Security | CIO
  • The metric missing from every AI dashboard
    Across industries, the conversation around AI has centered on capability. How fast can we implement it? Where can we automate? How much efficiency can we unlock? Those are reasonable questions. But they are not the only ones that matter. A recent Gartner report found that 91% of CIOs and IT leaders say their organizations dedicate little to no time scanning for the behavioral byproducts of AI use. The same research makes something else clear: Preserving the resilience a
     

The metric missing from every AI dashboard

20 de Abril de 2026, 09:00

Across industries, the conversation around AI has centered on capability. How fast can we implement it? Where can we automate? How much efficiency can we unlock? Those are reasonable questions. But they are not the only ones that matter.

A recent Gartner report found that 91% of CIOs and IT leaders say their organizations dedicate little to no time scanning for the behavioral byproducts of AI use. The same research makes something else clear: Preserving the resilience and safety of the workforce in the AI era is not simply a well-being initiative. It is tied directly to productivity.

As an industry, we measure performance gains very carefully. Simultaneously, we measure psychological strain much less closely. When we fail to measure something so important, something that directly affects productivity, culture and trust, that goes beyond a gap in analytics. It is a governance blind spot. That blind spot greatly concerns me.

The invisible psychological cost of acceleration

When AI systems enter workflows, the early data often looks promising: Output improves; turnaround time shortens; quality rises. What takes longer to surface is the human response to that acceleration.

As AI begins handling tasks that once required deep technical judgment, employees can start to wonder, internally, what happens to the expertise they spent years building. Cognitive offloading increases efficiency, and it shifts the relationship between a person and their work. When that shift happens too quickly, even capable employees can feel a subtle loss of mastery. That feeling rarely shows up in a dashboard. Instead, it can subtly change how people show up at work.

Job insecurity concerns often follow, though not always in obvious ways. It is not just about the fear of losing a role. More often, it is about uncertainty. When responsibilities blur and systems take on decision-making tasks, ambiguity increases.

Many AI systems operate as “black box” models: Systems whose internal reasoning is not fully transparent. When employees are expected to act on outputs they cannot fully explain, accountability can feel heavier. If something goes wrong, who is responsible? Lack of explainability increases perceived risk, and perceived risk increases stress.

Layer onto that the rise of AI-powered monitoring tools. Even when introduced with good intentions, continuous evaluation can feel different from periodic feedback. Some employees experience it as support. Others experience it as surveillance. This perception matters. Trust may start to erode until it’s razor-thin.

The real-world impact of AI’s mental health strain

Slowly, employee behavior begins to adjust to this environment. Research highlighted by HR Reporter found that when employees feel threatened by AI adoption, they may respond with knowledge-hiding behaviors instead of collaboration. Self-protection begins to replace openness. Not because people are unwilling to contribute, but because they are trying to preserve their own relevance.

Motivation shifts as well. A recent Harvard Business Review study found that while generative AI improved task quality and productivity, it reduced intrinsic motivation by about 11% and increased boredom by roughly 20%. Additional research published in Behavioral Sciences suggests that sustained reliance on AI tools can alter emotional engagement with work over time. Therein lies the tension: Output improves as engagement declines.

Not to mention workload issues. AI is often introduced with the promise of reducing effort. Yet as Harvard Business Review recently noted, AI does not necessarily reduce work. It can create an intensity that boomerangs back on the workforce. When friction drops, expectations expand. Employees take on more work because they can. They operate at sustained speed because the system allows for that. Unfortunately, what looks at first like efficiency can slowly become fatigue.

None of these dynamics exists in isolation. They actually reinforce one another. Reduced confidence feeds insecurity. Insecurity alters behavior. Intensified workload accelerates exhaustion. And not everyone acclimates at the same pace.

What leaders risk overlooking

In many organizations, performance dashboards light up before psychological ones even exist. We track uptime, output, cost savings and deployment velocity. We rarely track confidence, perceived relevance or how long it takes someone to recover after a public error.

Stress does not always present as resistance. For managers, that distinction matters. Sometimes it shows up as overextension, employees taking on more than is sustainable because they feel pressure to prove continued value in an AI-enabled environment. A manager relying heavily on AI-generated analysis may not notice that dynamic until it has already done damage.

Isolation is another signal worth watching. As AI mediates more interactions, peer collaboration can quietly thin out. Work becomes efficient but less communal, and over time, that shift erodes belonging and morale in ways that don’t show up on any dashboard.

Leadership itself is not immune. AI can draft performance reviews, summarize meetings and generate strategy outlines at remarkable speed. But as McKinsey has observed, while AI can write, design and code, it cannot do the hard work of leadership.

Mentorship, context-setting and ethical judgment remain deeply human responsibilities. If leaders outsource too much of the relational aspect of leadership to AI systems, employees may experience a subtle loss of support. None of this happens overnight, which makes it extremely easy to miss.

Resilience as governance

Research published in Nature defines psychological resilience as the ability to recover or grow stronger in the face of adversity. Importantly, the study suggests that individuals with higher psychological resilience are more likely to maintain confidence and optimism when facing perceived career threats posed by AI.

Resilience, then, is not abstract. It is measurable. It influences how people interpret change. If we accept that adaptation stress is predictable in an AI-enabled environment, then resilience cannot be left to chance.

Resilience must be built into how AI is deployed from the start. That begins with clarity. When leaders are explicit about how AI will be used, what will change and what will remain human-led, speculation has less room to grow. Ambiguity answers itself quickly, and usually with anxiety.

Clarity also extends to accountability. Employees need to understand where AI outputs end and where human judgment still carries responsibility. When that boundary is blurred, stress increases because no one is fully sure where decisions should live.

Over time, the conversation has to move beyond protection and toward growth. Reskilling is not only about preserving roles; it signals that relevance can evolve. When organizations invest in helping people adapt alongside technology investments, they reinforce stability rather than erode it.

Trust must be protected as carefully as performance. Surveillance capabilities and AI-enabled analytics should be implemented with intention and oversight. And, if we are serious about resilience, we should measure it.

Just as we track deployment velocity and system performance, we can track engagement, skill confidence and recovery time after errors in high-speed environments. Behavioral byproducts are not soft signals. They influence performance as directly as any technical metric.

Gartner research is direct: Preserving workforce resilience and safety in the AI era is a core responsibility, not just for well-being but for productivity itself. If 91% of CIOs report dedicating little to no time scanning for these behavioral effects, then there is an opportunity and perhaps an obligation to lead differently. Resilience should sit beside capability on the technology agenda.

A final reflection

Change has a way of exposing what we have not prepared for.

When I think about the pace of AI adoption, I do not feel alarmed. I feel thoughtful. Technology has always advanced faster than our comfort with it. What matters is not whether it moves quickly; it is whether we move wisely.

In moments of rapid change, it is tempting to focus only on what is measurable. Speed. Output. Efficiency. The bottom line. Those are tangible. But what often determines long-term success is less visible: Whether people feel steady, capable and trusted as the ground shifts beneath them.

AI will certainly continue to improve. What is less certain is whether leaders will give equal attention to the human side of the transformation. Confidence cannot be automated. Trust cannot be generated by a model. Those remain leadership responsibilities.

If we approach AI with both ambition and care, we can build organizations that are not only more capable but more durable. That is a standard worth holding.

This article is published as part of the Foundry Expert Contributor Network.
Want to join?

  • ✇Security | CIO
  • AI doesn’t create ROI. Organizations do.
    Organizations that invest the most in AI often capture the least value from it. That paradox is driving a growing debate about whether AI delivers value. But that’s the wrong debate. At the task level, the evidence is clear with studies consistently showing measurable productivity gains in coding, writing, analysis, and customer support. MIT researchers have found that 95% of AI pilots fail to generate measurable P&L impact at the pilot stage. McKinsey also reports
     

AI doesn’t create ROI. Organizations do.

20 de Abril de 2026, 07:00

Organizations that invest the most in AI often capture the least value from it. That paradox is driving a growing debate about whether AI delivers value. But that’s the wrong debate. At the task level, the evidence is clear with studies consistently showing measurable productivity gains in coding, writing, analysis, and customer support.

MIT researchers have found that 95% of AI pilots fail to generate measurable P&L impact at the pilot stage. McKinsey also reports only the high performers, about 6% of respondents, attribute 5% or more of EBIT to AI. And BCG estimates that roughly 60% of AI transformation efforts deliver limited or no material value. The pattern is consistent: pilots succeed locally, but value rarely scales systemically.

Meanwhile, the adoption gap between large enterprises and SMBs has narrowed sharply. US Small Business Administration data shows that between November 2023 and August 2025, AI adoption rose steadily across both, with larger firms increasing from under 6% to over 12%, and smaller ones from about 4% to over 8%, signalling that while the former still lead, the adoption gap is narrowing as the latter accelerates adoption.

AI works at the edge, but struggles at the core

Despite rising adoption rates among large enterprises, AI doesn’t simply deploy when it enters this environment, with their decades of accumulated systems, compliance layers, governance checkpoints, and cross-functional dependencies. Once in, AI must negotiate with security reviews, procurement cycles, legal assessments, architecture boards, and legacy integration constraints. And while each layer exists for a reason, together, they slow adaptation and dilute impact.

Inside a function, an AI pilot may show promise, but when it attempts to scale, it encounters the operating model. Unclear data ownership, accountability, and decision rights further increase scaling costs. So what worked in a contained environment stalls in aggregation, and the value disappears at scale.

SMBs have their own challenges. They face cash flow constraints, limited staff, and customer risk, but fewer veto points. Furthermore, a founder doesn’t convene a cross-functional steering committee to experiment with AI-assisted quoting or automated follow-ups. Decisions move faster and feedback loops are shorter. Impact is visible quickly because each employee represents a meaningful percentage of total capacity. When a five-person firm automates 20% of its administrative workload, the effect is immediate and measurable.

Simplicity is their structural advantage and with fewer legacy systems, shorter decision paths, and less layered governance, they can adopt SaaS solutions quickly and integrate them with minimal friction. While this doesn’t guarantee better decisions, it increases speed.

The bigger picture

On the flip side, large enterprises have deep integration requirements, formalized governance, and distributed accountability, which reduce operational risk but also slow the conversion of new capabilities into financial outcomes. AI pilots can demonstrate technical feasibility but still fail to move the needle on enterprise economics.

Leadership teams, therefore, face a design choice they often prefer to avoid. As long as AI ROI is framed as a tech problem, it can be delegated to IT, data teams, or innovation labs. But an organizational design problem can’t. AI, after all, amplifies structural friction rather than eliminates it. If decision rights are unclear, AI exposes it. If data governance is weak, AI magnifies it. If incentives are misaligned, AI accelerates the misalignment. Productivity gains at the task level don’t automatically translate into margin expansion at the enterprise level.

This isn’t new. Early internet investments followed a similar pattern where the technology functioned, but the internet rewarded companies that reorganized around it, not those that layered it on top of existing structures.

The evidence today suggests a similar pattern. AI ROI isn’t constrained by model capability but by organizational readiness to absorb and scale change. So the question shouldn’t be where’s the AI ROI since organizations create ROI, not AI. The real question is can we redesign how we work, and decide, govern, and measure performance to capture it. Without that transformation, AI remains a productivity tool at the margins. With it, though, AI becomes a source of durable economic return.

  • ✇Security | CIO
  • 고객지원 챗봇 노린 ‘AI 토큰 무임승차’ 확산…기업 AI 예산 흔든다
    고객 서비스를 위해 AI 에이전트를 도입한 CIO에게 또 하나의 고민이 생겼다. 외부 사용자가 시스템을 교묘히 조작해 기업 비용으로 AI 연산을 수행하도록 만드는 문제다. 이러한 AI 토큰 탈취를 최소화하기 위해 시스템을 잠그는 방법이 없는 것은 아니다. 다만 대부분의 대응책은 단점이 있으며, 자칫하면 해당 시스템의 도입 명분 자체를 약화시킬 가능성도 있다. 이 같은 오남용은 본질적으로 프롬프트 인젝션 공격의 한 형태다. 기업의 AI 비용을 증가시킬 뿐 아니라 투자 대비 수익(ROI)의 가시성을 떨어뜨릴 수 있다. 더 나아가 공격자가 과도한 요청으로 종량제 기반의 고비용 서비스를 과부하 상태로 만들어 수익성을 훼손하는 ‘지갑 서비스 거부(denial of wallet)’ 공격에 기업이 노출될 수 있다. 인포테크 리서치 그룹(Info-Tech Research Group)의 기술 자문 저스틴 세인트모리스는 “이 문제는 빙산의 일각
     

고객지원 챗봇 노린 ‘AI 토큰 무임승차’ 확산…기업 AI 예산 흔든다

16 de Abril de 2026, 20:39

고객 서비스를 위해 AI 에이전트를 도입한 CIO에게 또 하나의 고민이 생겼다. 외부 사용자가 시스템을 교묘히 조작해 기업 비용으로 AI 연산을 수행하도록 만드는 문제다.

이러한 AI 토큰 탈취를 최소화하기 위해 시스템을 잠그는 방법이 없는 것은 아니다. 다만 대부분의 대응책은 단점이 있으며, 자칫하면 해당 시스템의 도입 명분 자체를 약화시킬 가능성도 있다.

이 같은 오남용은 본질적으로 프롬프트 인젝션 공격의 한 형태다. 기업의 AI 비용을 증가시킬 뿐 아니라 투자 대비 수익(ROI)의 가시성을 떨어뜨릴 수 있다. 더 나아가 공격자가 과도한 요청으로 종량제 기반의 고비용 서비스를 과부하 상태로 만들어 수익성을 훼손하는 ‘지갑 서비스 거부(denial of wallet)’ 공격에 기업이 노출될 수 있다.

인포테크 리서치 그룹(Info-Tech Research Group)의 기술 자문 저스틴 세인트모리스는 “이 문제는 빙산의 일각에 불과하다. 훨씬 더 큰 문제를 상징하는 신호일 수 있다”라며 “공격자는 ‘코드를 제공해 준다면, 다른 무엇까지 해줄 수 있는가’라고 생각할 수 있다”고 설명했다.

보안 AI 연합(CoSAI) 회원이자 ACM AI 보안(AISec) 프로그램 위원회 소속인 닉 케일은 비용 구조의 차이를 구체적으로 짚었다. 케일은 “‘내 주문은 어디에 있나? 영업시간은 어떻게 되나?’와 같은 일반적인 고객 응대는 200~300토큰 수준”이라며 “하지만 파이썬으로 연결 리스트를 뒤집어 달라는 요청은 2,000토큰 이상이 쉽게 발생한다. 세션당 비용이 약 10배로 뛰는 셈”이라고 분석했다.

이어 “시스템은 이를 또 하나의 고객 대화로 인식하기 때문에 비용 이상 징후 보고서에 잡히지 않는다”라며 “챗봇 트래픽의 5%만 복잡한 질의를 수행하는 무임승차 이용자라 해도, 분기 실적 검토에서 설명하기 어려운 수준의 예산 공백이 발생할 수 있다”고 전했다.

판단력의 문제

이 사안의 핵심에는 ‘판단력’이 있다. 문제는 챗봇에 이러한 판단력이 거의 없다는 점이다.

케일은 “인간은 맥락적 판단을 기본적으로 내재하고 있다”라며 “하지만 챗봇에는 ‘당신은 도움이 되는 고객 서비스 에이전트다’라는 식의 시스템 프롬프트가 설정돼 있을 뿐이다. 이는 강제 장치가 아니라 일종의 권고 문구에 가깝다. AI판 벨벳 로프와 같은 존재”라고 설명했다.

이어 “이 도구를 조금만 사용해 본 사람이라면 기본적인 대화 구조만으로도 시스템 프롬프트를 우회할 수 있다는 사실을 안다. 현재 기업에서 벌어지는 일이 바로 그것”이라며 “시스템은 세션을 인증할 뿐, 사용자의 의도는 검증하지 않는다”고 지적했다.

그레이하운드 리서치(Greyhound Research)의 수석 애널리스트 산치트 비르 고기아는 이 문제가 앞으로 더 확대될 것으로 내다봤다. 근본적인 책임은 기업에 있다고 진단했다.

고기아는 “기업이 목격하는 것은 챗봇 오남용이 아니라, 고객 서비스라는 이름으로 범용 추론 시스템을 배치한 데 따른 의도치 않은 결과”라며 “이 시스템은 대화형 인터페이스로 설계됐지만, 경제적으로는 개방형 연산 표면처럼 작동한다. 목적과 설계의 불일치가 문제의 출발점”이라고 분석했다.

또한 “모델이 발전한다고 해서 문제가 사라지지는 않을 것이다. 오히려 심화될 가능성이 크다”라며 “AI가 더 강력해지고, 더 쉽게 접근 가능해지며, 더 깊이 내재화될수록 의도된 사용과 의도되지 않은 사용의 경계는 계속 흐려질 것”이라고 전망했다. 이어 “수동적 통제에 의존하는 기업은 비용이 점진적으로 상승하는 현상을 겪게 될 것”이라며 “아키텍처에 능동적 거버넌스를 내장한 기업만이 통제력을 유지할 수 있다. 생성형 AI는 실험 단계에서 운영 단계로 이동하고 있으며, 운영 환경에서는 역량보다 규율이 더 중요하다”고 밝혔다.

포머고브(FormerGov) 전무이사이자 사이버보안 컨설턴트인 브라이언 레빈은 탈옥(jailbreaking)을 리스크 관리의 핵심 과제로 격상해야 한다고 조언했다.

레빈은 “오남용을 예외적 사례로 보지 말고 1차 리스크로 다뤄야 한다”라며 “트래픽의 5%가 의도적이든 아니든 봇 탈옥을 시도하는 상황을 전제로 설계해야 한다”고 말했다. 이어 “이에 선제적으로 대응하는 기업은 AI 예산을 예측 가능하게 유지하고 고객 경험도 보호할 수 있다”라며 “반대로 그렇지 못한 기업은 설명하기 어려운 비용 초과 문제를 해명해야 하는 상황에 놓일 수 있다”고 덧붙였다.

실제 현장에서 벌어지는 AI 토큰 탈취

그렇다면 이러한 챗봇 오남용은 실제로 어떤 모습일까. 소셜미디어에는 이 같은 공격 사례로 추정되는 게시물이 잇따라 올라오고 있다. 링크드인, 레딧, 인스타그램, 엑스(X) 등에서는 아마존 챗봇 오남용 사례가 특히 큰 주목을 받았다. CIO.com은 해당 사례를 직접 재현하기도 했다. 한편 칩otle 사례도 확산됐지만, 칩otle은 해당 게시물이 조작된 것이라고 주장했다.

AI chatbot token freeloading on Amazon's Rufus AI

CIO.com / Foundry

아마존 사례에서는 사이트 방문자가 고객 서비스 봇에 코딩 작업을 요청하는 방식이 활용됐다. 예를 들어 “n번째까지 피보나치 수열을 출력하라”는 요구를 하거나, 스파게티 볼로네제 조리법 전체를 생성하도록 유도하는 식이다.

치폴레 챗봇에서 나왔다고 알려진 사례는 사실 여부가 확인되지 않았다. 해당 게시물의 최초 작성자로 추정되는 인물에게 보낸 메시지에는 답변이 없었고, 치폴레 역시 인터뷰 요청을 거절했다. 치폴레의 외부 커뮤니케이션 매니저 샐리 에번스는 이메일을 통해 “해당 게시물은 포토샵으로 조작된 이미지이며, 챗봇 ‘페퍼(Pepper)’는 생성형 AI를 사용하지도 않고 코딩 기능도 없다”라고 밝혔다. 다만 페퍼가 어떤 기술을 사용하는지, 그리고 왜 해당 이미지가 가짜라고 판단했는지에 대한 추가 질의에는 응답하지 않았다.

실제로 얼마나 심각한 문제인가

이 사안을 기업 CIO의 중대 과제로 봐야 하는지에 대해서는 의견이 엇갈린다. 인포테크 리서치 그룹의 저스틴 세인트모리스는 챗봇이 이처럼 복잡한 질의를 대량으로 처리하게 될 가능성에 회의적인 입장을 보였다.

세인트모리스는 “무료 계정으로 챗GPT를 사용할 수 있는데, 굳이 기업 챗봇을 이용하겠는가”라며 “기업 챗봇은 이런 용도로는 오히려 가장 비효율적인 도구일 수 있다”고 평가했다.

반면 닉 케일은 무료 생성형 AI 챗봇에는 분명한 한계와 제약이 있다고 반박했다. 케일은 “복잡한 질의를 시도하면 매우 빠르게 한계에 부딪힌다”라며 “기업 고객 서비스 챗봇에는 별도의 속도 제한이 없고, 게이트도 없다. 더 강력한 모델을 실행하는 경우가 많다. 사실상 통제되지 않은, 과금 제한도 없는 추론 엔드포인트와 같다”고 지적했다.

다만 케일은 이러한 상황이 CIO.com에게 완전히 새로운 문제는 아니라고 봤다.

케일은 “우리는 이미 같은 장면을 본 적이 있다. 2010년대 초반 REST API 도입 과정에서 기업이 겪었던 사이클과 동일하다”라며 “기업은 엔드포인트를 공개하고 선의의 사용을 가정했다가 남용을 겪은 뒤, 피해가 발생한 이후에야 속도 제한과 API 키 관리를 도입했다”고 설명했다. 이어 “지금은 같은 패턴이 AI 엔드포인트에서 재현되고 있다. 차이점은 요청당 비용이 몇 단계 더 크다는 점이다. REST API를 남용해도 호출당 비용은 극히 적지만, 챗봇에서 복잡한 추론 질의를 실행하면 매번 실질적인 비용이 발생한다”고 분석했다.

그레이하운드 리서치의 산치트 비르 고기아는 남용 비율이 낮더라도 재무적 영향은 빠르게 누적될 수 있다고 경고했다.

고기아는 “구조적으로 위험한 이유는 소수의 행위가 전체 비용을 과도하게 왜곡할 수 있기 때문”이라며 “챗봇 트래픽의 5~8%만 목적 외 고복잡도 질의라 해도, 전체 추론 비용의 4분의 1 이상을 소모할 수 있다”고 설명했다. 이어 “이는 이상 현상이 아니라 토큰 기반 시스템의 작동 방식상 수학적으로 예측 가능한 결과”라며 “다만 비용 급증처럼 보이지 않고 세션당 비용, 세션 길이, 토큰 사용량이 점진적으로 증가하는 형태로 나타나기 때문에 경보가 울리지 않는 경우가 많다”고 덧붙였다.

고기아는 이를 가시성의 실패라고 진단했다. 고기아는 “대부분 기업은 대화 건수, 총 토큰 수, 총비용 같은 활동 지표를 추적하지만, 의도 수준의 경제성을 추적하는 곳은 드물다”라며 “정상적인 고객 지원에서 발생한 비용과 무관한 연산에서 발생한 비용을 구분하지 못한다. 대시보드는 무엇이 일어났는지는 보여주지만, 그것이 일어나야 했는지는 보여주지 않는다. 결국 재무 검토 단계에서야 차이가 드러난다”고 설명했다.

물론 케일이 제기한 두 가지 우려, 즉 통제 불가능한 비용 증가와 통제되지 않은 엔드포인트 문제의 심각성은 기업의 배포 방식과 AI 공급업체 계약 조건에 따라 달라질 수 있다.

가트너의 부사장 애널리스트 나데르 헤네인은 현재 벤더의 요금제 구조가 이러한 탈옥 시도의 영향을 어느 정도 완화한다고 봤다.

헤네인은 “대부분의 대기업은 무제한에 가까운 요금제를 사용하거나 LLM을 내부에서 직접 운영하고 있다”라며 “이 문제가 기업 재무를 크게 흔들 정도는 아닐 것”이라고 전망했다.

리스크 완화를 위한 선택지

챗봇 오남용 위험을 줄이기 위한 가장 직접적인 방법은 고객이 사업과 직접 관련된 질문만 하도록 가드레일을 설계하는 것이다. 그러나 이 과정에서 정당한 고객 질문까지 차단하지 않도록 균형을 맞추는 일은 쉽지 않다. 또한 LLM은 필요할 때 가드레일을 우회하는 경우도 적지 않다.

또 다른 접근법은 추가 AI를 투입해 1차 AI를 감독하거나, 고객 질문 자체가 아니라 단일 응답에서 사용할 수 있는 토큰 수를 제한하는 데 초점을 맞추는 것이다. 다만 토큰 상한선은 사용자가 프롬프트를 여러 개로 나누는 방식으로 우회할 수 있다. 동시에 복잡하지만 정당한 질의까지 차단해 서비스의 비즈니스 가치를 떨어뜨릴 위험도 있다.

AISec의 닉 케일은 여러 대응 방안을 결합해야 한다고 제안했다.

케일은 “실제로 효과가 입증된 방식은 지원 문의처럼 보이지 않는 세션을 식별하는 행동 분석, 단순 요청량을 넘어 맥락까지 고려하는 속도 제한, 그리고 세션별 토큰 사용량을 모니터링해 200토큰 수준의 ‘내 주문은 어디에 있나?’와 2,000토큰이 소요되는 ‘파이썬 스크립트를 작성해 달라’를 구분하는 것”이라고 설명했다. 이어 “하지만 대부분 기업은 고객 서비스 AI에 대해 ‘정교한 자원 남용’을 위협 시나리오로 상정하지 않았기 때문에 이러한 장치를 도입하지 않았다”라며 “이는 와이파이를 개방해 둔 채 이웃이 해당 대역폭으로 암호화폐 채굴을 하고 있다는 사실을 뒤늦게 알게 되는 것과 같은 상황”이라고 비유했다.

포레스터의 부사장 겸 수석 애널리스트 케이트 레겟은 아예 LLM을 배제하고 특정 영역에 특화된 소형 언어 모델을 사용하는 방안을 권고했다. 예를 들어 소비재 기업이라면 원재료 정보처럼 한정된 범위에 집중하는 모델을 구축하는 방식이다.

레겟은 “프라이빗 클라우드나 온프레미스 환경에 배치해 통제할 수 있다”라며 “가장 비용이 많이 드는 방식이지만, 그만한 가치가 있는지는 각 기업의 ROI와 리스크 모델에 달려 있다”고 밝혔다.

인트린식 시큐리티(Intrinsic Security)의 CEO 게리 롱사인은 제출된 질의를 사전에 검토하는 두 번째 LLM을 두는 방식도 현실적인 대안이 될 수 있다고 봤다.

롱사인은 “추가 토큰 비용과 응답 지연이 발생할 수 있다”라며 “다만 사용자 프롬프트와 병렬로 검토를 수행하고, 자체 호스팅 LLM을 활용하면 일부 완화가 가능하다”고 설명했다.

CIO가 어떤 대응 전략을 선택하든, 보다 근본적인 질문에 대한 답이 필요하다는 지적도 나온다. 고객 서비스 AI 도입의 정확한 비즈니스 목적과 기대 성과가 무엇인지 명확히 해야 한다는 것이다.

무어 인사이트 앤드 스트래티지(Moor Insights and Strategy)의 수석 애널리스트 제이슨 앤더슨은 “기업은 이제 고객 서비스 AI를 단순한 지원 비용이 아니라 새로운 판매 채널로 인식해야 한다”라며 “많은 지원 솔루션이 문의 전환 감소 등 비용 절감 지표 중심으로 평가되고 있다. 앞으로는 수익 지표와 목표 설정도 함께 논의해야 한다”고 말했다.

매시브스케일AI(MassiveScale.AI)의 CEO 조슈아 우드러프는 CIO와 조직이 거버넌스의 기본 작업에 직접 나서야 한다고 강조했다.

우드러프는 “범위 정의, 접근 통제, 사용 사례 경계 설정과 같은 기본 작업이 실제 거버넌스의 모습”이라며 “눈에 띄는 혁신으로 보도되지는 않지만, 보도자료에 실릴 만한 화려한 작업도 아니지만, 고객 서비스 봇과 기업 로고를 단 우발적 무료 AI 서비스 사이를 가르는 결정적 차이”라고 밝혔다.
dl-ciokorea@foundryco.com

  • ✇Security | CIO
  • “AI 투자, ROI 없이도 간다”…기업 현장에 벌어진 ‘성과 괴리’ 현실
    기업 CIO 사이에서는 생성형 AI와 에이전틱 AI의 투자 대비 수익(ROI)을 명확히 입증하기 어렵다는 점이 이미 공감대로 자리 잡고 있다. 그럼에도 글로벌 컨설팅 기업 KPMG는 일부 기업이 이러한 한계를 인지한 상태에서도 AI 도입을 적극적으로 추진하고 있다고 전했다. 정량적으로 산출 가능한 ROI가 부족함에도, 경기 둔화가 AI 투자 계획을 늦추는 요인으로 작용하지는 않고 있다는 분석이다. KPMG는 “글로벌 리더의 4분의 3이 경제적 불확실성에도 불구하고 AI 투자를 우선순위에 둘 것”이라고 밝혔다. KPMG는 ‘글로벌 AI 펄스 설문조사(Global AI Pulse Survey)’라는 자체 보고서에서 “여전히 실험 단계에 머무는 조직과 파일럿을 넘어 AI 에이전트를 전면 확장해 실질적인 비즈니스 가치를 창출하는 조직 사이에는 분명한 격차가 존재한다”라고 설명했다. 이어 “전 세계적으로 AI 도입은 가속화하고 있지만, 명확
     

“AI 투자, ROI 없이도 간다”…기업 현장에 벌어진 ‘성과 괴리’ 현실

15 de Abril de 2026, 07:24

기업 CIO 사이에서는 생성형 AI와 에이전틱 AI의 투자 대비 수익(ROI)을 명확히 입증하기 어렵다는 점이 이미 공감대로 자리 잡고 있다. 그럼에도 글로벌 컨설팅 기업 KPMG는 일부 기업이 이러한 한계를 인지한 상태에서도 AI 도입을 적극적으로 추진하고 있다고 전했다.

정량적으로 산출 가능한 ROI가 부족함에도, 경기 둔화가 AI 투자 계획을 늦추는 요인으로 작용하지는 않고 있다는 분석이다. KPMG는 “글로벌 리더의 4분의 3이 경제적 불확실성에도 불구하고 AI 투자를 우선순위에 둘 것”이라고 밝혔다.

KPMG는 ‘글로벌 AI 펄스 설문조사(Global AI Pulse Survey)’라는 자체 보고서에서 “여전히 실험 단계에 머무는 조직과 파일럿을 넘어 AI 에이전트를 전면 확장해 실질적인 비즈니스 가치를 창출하는 조직 사이에는 분명한 격차가 존재한다”라고 설명했다. 이어 “전 세계적으로 AI 도입은 가속화하고 있지만, 명확한 수익을 확인하고 있는 AI 리더 그룹은 소수에 불과하다. 이들 가운데 82%는 AI가 이미 의미 있는 비즈니스 가치를 제공하고 있다고 답했으며, 이는 다른 기업의 62%와 비교해 높은 수치다. 이는 단순한 AI 성숙도 차이를 넘어, AI를 전사적 혁신으로 접근하는 조직과 기존 모델에 덧붙이는 수준에 그치는 조직 간 성과 격차가 확대되고 있음을 보여준다”라고 분석했다.

영국을 중심으로 한 별도 분석에서도 유사한 흐름이 나타났다. KPMG는 “AI는 더 이상 전통적인 ROI 기준으로만 정당화되지 않는다”라며 “영국 응답자의 65%는 가시적인 ROI와 관계없이 AI 투자를 지속할 것이라고 답했다. 기업이 인공지능에 상당한 비용을 지출하고 있지만, 기술의 가치를 인정하는 데 반드시 전통적인 ROI가 필요한 것은 아니다”라고 밝혔다.

인식 전환

KPMG의 AI 부문 책임자 리앤 앨런은 전사 차원의 AI에 대한 높은 관심이 기술의 재무적 접근 방식에도 변화를 가져왔다고 설명했다.

앨런은 “AI를 즉각적인 수익을 창출해야 하는 기술로 보던 시각에서 벗어나, 전사적 혁신을 가능하게 하는 전략적 수단이자 장기 투자로 인식하는 방향으로 비즈니스 리더의 사고가 전환된 것은 중요한 이정표”라고 평가했다. 이어 “그러나 명확한 전략 없이 무작정 AI에 투자해서는 안 된다. AI는 조직 운영 방식과 의사결정 구조, 그리고 인간과 AI 에이전트가 일상적으로 협업하는 방식을 근본적으로 재편하고 있다”라고 밝혔다.

이 같은 사고의 전환은 현실적 판단에 기반한 측면도 있다. 많은 CIO가 이사회로부터 AI 투자는 선택 사항이 아니라는 메시지를 받고 있기 때문이다. 다만 AI의 ROI를 둘러싼 과제는 여전히 다양한 형태로 나타나고 있다.

AI ROI를 둘러싼 복합적 과제

AI 실험과 도입이 빠르게 진행되는 상황에서, 일부 경영진은 비현실적인 ROI 목표를 설정한 채 개념검증(PoC)을 추진하고 있다. 기술적으로 달성하기 어려운 기준을 적용해 성과를 평가한다면, 적절하지 않은 지표가 충족되지 않았다고 해서 이를 대형언어모델(LLM)의 한계로 단정하기는 어렵다.

또한 일부 기업은 AI 도입 과정에서 예상치 못한 비용을 경험하고 있다. 예를 들어 고객용 챗봇에 AI를 적용했지만, 이용자가 이를 ‘무료’ 생성형 AI 도구처럼 활용하면서 추가 토큰 사용량이 발생하고, 그 비용을 기업이 부담하는 사례가 나타나고 있다.

무엇을 측정해야 하는가

일부 분석가와 투자자는 AI가 대체하고 있는 지적 노동이 그동안 제대로 측정된 적이 거의 없었다는 점을 문제로 지적한다. 이로 인해 재무 부서는 AI의 ROI를 산정하기 위해 기존과는 다른 접근 방식을 모색해야 하는 상황에 놓였다.

투자 자문 기업 람튼 캐피털 파트너스의 매니징 파트너 벤 그랜트는 “문제는 측정 방식에 있다. 전통적인 ROI는 명확한 투입 대비 산출 구조를 요구하지만, 현재 대부분의 기업에서 AI는 그런 형태로 작동하지 않는다”라고 진단했다. 이어 “AI의 가치는 절약된 시간, 더 빠른 의사결정, 문제가 되기 전에 공백을 메우는 효과 등으로 나타난다. 이런 요소를 스프레드시트에 담기는 쉽지 않다”라고 설명했다.

그랜트는 또 “전통적인 ROI 없이 AI에 투자한다고 해서 무모하다고 보지는 않는다. 이는 실용적인 판단에 가깝다. 기업은 이미 충분한 가능성을 확인했지만, 재무 조직이 요구하는 방식으로 정량화하지 못하고 있을 뿐”이라고 언급했다.

컨설팅 기업 인포테크리서치그룹의 수석 연구 책임자 마니시 자인은 이러한 괴리가 발생하는 배경에 대해 “기업이 동시에 두 가지 모드로 운영되고 있기 때문”이라고 분석했다. 자인은 “학습 속도가 중요한 탐색 단계와, 가시적 성과 실현이 요구되지만 여전히 성숙도가 발전 중인 산업화 단계가 병존하고 있다”라고 설명했다.

자인은 또 기업의 기대치가 달라졌다고 짚었다. “기업이 수익을 중요하게 여기지 않는 것은 아니다. 다만 ROI에 집중하기에 앞서 AI 역량을 성숙시키는 것이 우선이라는 점을 학습했다는 의미”라며 “새로운 엔진이 등장했을 때 현명한 운영자는 그것이 얼마를 벌어들이는지부터 묻지 않는다. 오히려 자신만 그 엔진을 갖추지 못했을 때 어떤 일이 벌어질지를 먼저 고민한다”라고 말했다.

AI는 일상 기술이 되고 있는가

가트너의 부사장 애널리스트 나데르 헤네인은 AI의 산출물을 사소한 수준으로 보기는 어렵다고 전제하면서도, AI가 점차 일상적인 업무 기능에 통합되고 있다고 진단했다. 이러한 변화는 전통적인 ROI 산정 방식에 도전 과제를 던지고 있다는 설명이다.

헤네인은 “AI 어시스턴트와 같은 일부 투자는 오피스 제품군처럼 표준 업무 도구로 자리 잡아가고 있다. 워드 문서나 프레젠테이션 개수를 세어 ROI를 계산하지는 않는다”라고 말했다. 이어 “그렇다고 AI 프로젝트의 ROI 계산이 사라지는 것은 아니다. 자금만 소진하고 가시적인 성과를 내지 못한다면 결국 중단될 것이다. 상장 기업의 손익계산서와 투자자 기대는 변하지 않는다”라고 밝혔다.

지출과 기대 사이

무어 인사이트 앤 스트래티지의 부사장 겸 수석 애널리스트 마이클 리온은 AI 도입 방식의 다양성이 기존 ROI 체계를 무력화하는 요인으로 작용하고 있다고 분석했다.

리온은 “ERP나 클라우드 전환에 적용하던 기존 ROI 공식은 AI에 들어맞지 않는다. 내가 만난 모든 CIO가 이를 인지하고 있다”라며 “특정 워크플로에서 어떤 생산성 향상이 있었는지는 설명할 수 있지만, 3년 뒤 전사적 차원의 수익이 어떻게 나타날지 묻는 질문에는 명확한 답을 내놓기 어렵다. ‘ROI와 무관하게 투자한다’는 표현은 바로 이 지점에서 나온다. 개인적으로 리더가 그럼에도 투자를 지속하는 판단은 타당하다고 본다”라고 말했다.

이어 “예산 부족은 이미 AI 프로젝트를 좌초시키는 요인 목록에서 사라진 지 오래다. 자금도 확보됐고 추진 동력도 있다. 현재의 진짜 장애물은 보안과 프라이버시, 그리고 이를 대규모로 운영할 인력이 거의 없다는 점”이라며 “대부분 조직은 충분한 정보를 바탕으로 한 베팅을 하고 있다. 뒤처질 경우 치러야 할 비용을 계산해봤고, 그 결과가 만족스럽지 않았기 때문”이라고 설명했다.

리온은 실제로 복리 효과를 낼 수 있을 만큼 인재, 거버넌스, 운영 역량을 갖춘 기업은 10곳 중 1곳 수준에 불과하다고 덧붙였다. “나머지는 일단 투자하고 성과를 기대하는 상황이다. 그것이 현재의 현실”이라고 평가했다.

기술 분석가 카미 레비는 “최소한의 ROI 근거도 없이 최첨단 기술에 투자하는 것은 재정적으로 자살 행위에 가깝다”라고 지적했다. 그러나 동시에 “AI의 발전 속도와 범위가 워낙 빠르기 때문에, 전통적인 ROI 산정 방식은 이미 시대에 뒤처졌다. 이제 조직은 뒤처질 것에 대한 두려움 때문에라도 AI에 뛰어들 수밖에 없는 상황”이라고 분석했다.

레비는 이 같은 상황에서 재무 조직이 일시적으로 경직된 ROI 기준을 완화할 필요가 있다고 주장했다.

레비는 “AI 경쟁력을 유지하거나, 최소한 경쟁사가 AI를 이해해가는 동안 시야에서 벗어나지 않기 위해서는 과거와 동일한 수준의 재무적 엄밀성을 적용하기 어려울 수 있다”라며 “통상적으로 경제 환경이 불안정해지면 기업은 기술 투자를 줄이지만, AI가 기술 로드맵의 핵심으로 자리 잡으면서 이러한 공식이 시험대에 오르고 있다”라고 말했다.

이어 “많은 조직은 경제적 불확실성 속에서도 AI 중심 지출을 줄이지 않는 경쟁사에 뒤처질 위험을 피하기 위해 다른 영역에서 비용 절감을 모색할 것”이라며 “실제로 다수의 경영진은 AI를 향후 발생할 수 있는 비용 절감의 포괄적 동력으로 활용하고 있으며, AI 주도 흐름에서 뒤처지지 않으려는 급박함 속에서 이러한 논리는 최고경영진의 승인을 이끌어내기에 충분한 명분이 되고 있다”라고 설명했다.
dl-ciokorea@foundryco.com

  • ✇Security | CIO
  • Why AI systems fail at scale and what you should measure instead of model accuracy
    A few years ago, I was part of a team rolling out an AI capability into a large enterprise environment. The model itself looked great in testing, accuracy was above 95%, the evaluation metrics were strong and everyone involved felt confident about the rollout. But within a few weeks of deployment, things started behaving in ways we hadn’t expected. At first, it was a subtler response, times fluctuated slightly and predictions occasionally arrived later than usual. Nothing
     

Why AI systems fail at scale and what you should measure instead of model accuracy

15 de Abril de 2026, 08:00


A few years ago, I was part of a team rolling out an AI capability into a large enterprise environment. The model itself looked great in testing, accuracy was above 95%, the evaluation metrics were strong and everyone involved felt confident about the rollout. But within a few weeks of deployment, things started behaving in ways we hadn’t expected. At first, it was a subtler response, times fluctuated slightly and predictions occasionally arrived later than usual. Nothing had technically “failed.” The infrastructure was up, the services were responding and our dashboards looked normal. Yet the outputs were inconsistent, and downstream systems began showing subtle operational issues. That experience stayed with me because it highlighted something we don’t talk about enough: AI systems often fail quietly.

In traditional software, failure is usually obvious. A service goes down, a database crashes, an API returns errors. You know something is wrong because the system tells you. AI introduces a different kind of failure, one that doesn’t announce itself. A model can stay technically operational while gradually producing outputs that have quietly stopped being useful. The data patterns shift. The latency creeps up. A feedback loop that worked in testing behaves differently under real load. And the monitoring dashboard still looks fine.

Over time, I’ve realized that many AI projects don’t struggle because the model itself is wrong. They struggle because the system around the model wasn’t designed for the kind of variability AI introduces. The question leaders should be asking is not simply whether the model is accurate. The real question is: what happens when the environment around the model changes?

Why model accuracy fails as a production metric

Accuracy is a useful signal during development. It tells you the model has learned something meaningful from the training data and can perform under controlled conditions. But I’ve seen it become a misleading stand-in for system readiness in large production environments, and that gap causes real problems.

The real issue is what accuracy doesn’t measure. It doesn’t tell you how the model behaves when the upstream data feed slows down at peak load. It doesn’t tell you what happens when the input distribution in production starts drifting from what the model saw during training. It doesn’t tell you whether predictions will arrive fast enough to be useful once they’re flowing through a real architecture with real dependencies. Research on enterprise AI adoption has found that infrastructure and integration complexity are among the most common reasons AI projects stall after initial pilots, not model performance.

I remember one deployment where predictions were technically correct but arrived several seconds later than expected because a downstream data pipeline slowed under load. From a model perspective, everything looked fine. But from an operational perspective, the system had already lost its usefulness. No error was thrown. No alert fired. The team didn’t realize the problem for days.

That’s the kind of failure accuracy scores don’t capture. In large production systems, AI models sit inside a web of pipelines, APIs and downstream applications that continuously shape how they perform. When those surrounding systems introduce latency, inconsistency or partial data, the model’s outputs degrade often silently, often gradually and often in ways that look like a business problem before anyone thinks to investigate the infrastructure.

Three operational signals that matter more than accuracy

If accuracy isn’t enough, what should CIOs be tracking? In my experience, the answer usually sits somewhere outside the model itself. Based on what I’ve seen across several large deployments, I’d focus on three areas.

The first is how the system behaves under real load. In testing, conditions are controlled. In production, traffic spikes, pipelines slow and compute gets shared across competing workloads. I’ve seen systems that looked solid during validation start to wobble once they encountered the uneven rhythm of real operations. The question isn’t just whether the model produces correct predictions, it’s whether those predictions arrive reliably, at the right time, through an architecture that can absorb operational stress without degrading.

The second is feedback loop maturity. AI models don’t stay static; the environments they operate in change and without mechanisms to detect that drift, performance can erode quietly for weeks. The Stanford AI Index has noted that production challenges in AI deployments frequently emerge well after initial launch, often tied to data and distribution shifts that were never monitored. The organizations I’ve seen handle this well invest in monitoring that tracks prediction quality over time, not just uptime. They know what degraded performance looks like before it becomes a business problem.

The third is failure containment. This one is underappreciated. Even in well-designed systems, unexpected behavior happens. In my own work exploring adaptive testing approaches for complex systems, I’ve seen how important it is to design architectures that assume anomalies will occur and contain them before they cascade through downstream services. This one is underappreciated. Even in well-designed systems, unexpected behavior happens. The difference between a recoverable incident and a serious disruption often comes down to whether the architecture was designed to limit the blast radius. In the deployments that held up best under pressure, there were validation layers between the model and downstream workflows, fallback logic when predictions fell outside expected ranges and monitoring thresholds that flagged anomalies early. Work on AI reliability and MLOps consistently points to these operational disciplines as the distinguishing factor between AI programs that scale and ones that plateau.

What this means for how leaders think about AI

I’ve sat in enough post-deployment reviews to know that the conversation almost always starts in the same place: the model metrics looked good, so what went wrong? And the honest answer is usually that we were measuring the wrong things. We were evaluating the model in isolation while the real performance happened at the system level, in the pipelines, the integrations and the operational layer that nobody had fully stress-tested.

This isn’t a criticism of the teams involved. It reflects a broader pattern in how AI success tends to get framed. Boardrooms want accurate numbers. Vendors often lead with benchmark scores. And so the metrics that actually predict production reliability, system resilience, observability maturity and failure design tend to get treated as implementation details rather than strategic indicators.

Changing that framing is, I think, one of the more important things CIOs can do right now. Not by dismissing model performance, it matters, but by insisting on a broader definition of readiness before deployment, not after. What are the upstream data dependencies, and how do we validate their health under load? What does degraded performance look like, and who gets alerted? How does the system fail when something unexpected happens, and how quickly can we contain it?

In fact, they’re often the questions that surface the most important risks early. They require a willingness to look past the accuracy slide and ask what it doesn’t tell you.

AI systems that succeed at scale tend to be designed with the assumption that things will go wrong. The goal isn’t to prevent every failure, it’s to make failures visible, contained and recoverable before they quietly undermine the value the system was meant to deliver. That shift in mindset, more than any improvement in model performance, is what separates AI initiatives that deliver lasting value from those that quietly stall after the initial launch.

This article is published as part of the Foundry Expert Contributor Network.
Want to join?

  • ✇Security | CIO
  • KPMG report finds enterprise disconnect between AI and its ROI
    Enterprise CIOs need no convincing that return on investment (ROI) for genAI and agentic AI is elusive, but consulting giant KPMG is reporting that some companies are plowing ahead with the technology anyway. In fact, beyond the lack of quantifiable ROI, executives are not even letting a weak economy slow their AI investment plans. “Three out of four global leaders will prioritize AI investment despite economic uncertainty,” KPMG found. “A clear gap is present betwee
     

KPMG report finds enterprise disconnect between AI and its ROI

10 de Abril de 2026, 22:08

Enterprise CIOs need no convincing that return on investment (ROI) for genAI and agentic AI is elusive, but consulting giant KPMG is reporting that some companies are plowing ahead with the technology anyway.

In fact, beyond the lack of quantifiable ROI, executives are not even letting a weak economy slow their AI investment plans. “Three out of four global leaders will prioritize AI investment despite economic uncertainty,” KPMG found.

“A clear gap is present between organizations still in the experimentation phase and those that have moved beyond pilots to fully scaling AI agents and capturing real business value outcomes,” the company said in its Global AI Pulse Survey report. “Although AI adoption is accelerating worldwide, only a small group of AI leaders are seeing clear returns. These leaders consistently outperform others, including 82% saying that AI is already delivering meaningful business value, compared to 62% of their peers. This is not simply an AI maturity gap; it is a widening performance gap between organizations that treat AI as an enterprise-wide transformation and those that are trying to bolster AI onto existing models and seeing incremental gains.”

In the subset of its report focusing on the UK, KPMG reported: “AI no longer needs traditional return on investment to be justified. 65% of UK respondents say their organization would continue to invest in AI regardless of tangible ROI. Despite a lot of money being spent by businesses on artificial intelligence, traditional return on investment isn’t necessarily needed for them to see value in the technology.”

Mindset shift

Leanne Allen, a KPMG head of AI, said the extreme focus on enterprise AI has forced a new approach to the financial aspects of the technology. 

“This shift in mindset by business leaders from viewing AI as something that must deliver an immediate return to one that sees AI as a long-term investment, recognizing it as a strategic enabler for enterprise‑wide transformation, is an important milestone,” Allen said. “But that shouldn’t translate into investing in AI blindly, without a clear strategy. AI is reshaping how organizations operate, how decisions are made, and how human and AI agents work together day‑to‑day.”

This shift in thinking is partly pragmatic, with many CIOs being told by their boards that AI investments are not optional. But the ROI challenge with AI has many forms.

The many problems with AI ROI

Given the urgent pace of AI experimentation and deployment, many AI proofs of concept (PoCs) are launched by executives setting unrealistic ROI goals. If the project is being measured against a standard that it technologically can’t achieve, it’s not an indictment of the LLM when the inappropriate metrics were not delivered

Some enterprises are also discovering unexpected costs from AI rollouts, such as when they use AI in customer chatbots and then discover that people are abusing them as “free” genAI tools, with the enterprise having to pay for the additional tokens

What to measure

What some analysts and investors argue is that the kinds of intellectual effort that AI is replacing have never been measured well, if at all. This means that financial departments will need to figure out different ways of measuring AI ROI.

Ben Grant, managing partner at Lambton Capital Partners, said, “I believe the problem is how we measure it. Traditional ROI wants clean input-output. AI doesn’t do that yet in most businesses. The value shows up in time reclaimed, decisions made faster and gaps being plugged before they become problems. Try putting that in a spreadsheet.”

But, he added, “I definitely don’t think companies investing in AI without traditional ROI are being reckless. They’re being practical. They’ve seen enough to know it works. They just can’t quantify it in the language finance teams want.”

Manish Jain, a principal research director at Info-Tech Research Group, said that he believes this disconnect exists “because enterprises are simultaneously operating in two modes: exploratory, where learning velocity matters more than ROI, and industrialized, where value realization is expected, but maturity is still evolving.”

Companies have adjusted their expectations, he noted. “It is not that companies don’t care for returns,” he said. “It’s that they’ve learned that before focusing on ROI, they need to focus on maturing AI capabilities. When a new engine comes along, wise operators don’t ask first what it earns. They ask what happens if they’re the only ones without it.”

Is AI becoming mundane?

Gartner VP Analyst Nader Henein isn’t going so far as to call AI deliverables trivial, but the technology has started to integrate into mundane everyday functions, which can challenge a traditional ROI spreadsheet.

“Some AI investments like AI assistants are becoming standard office tools, like the office suite. No one calculates ROI by counting the number of Word documents or presentations produced,” Henein said. “But ROI calculations on AI projects are not going anywhere. If it burns cash and fails to produce any tangible ROI, it will be retired. P&L reports and the expectations of investors from publicly traded companies are not changing.”

Spending and hoping

Michael Leone, VP/principal analyst at Moor Insights & Strategy, said the differentiated nature of AI deployments can also frustrate typical ROI mechanisms. 

“The old ROI playbook from ERP or cloud migrations doesn’t fit AI, and every CIO I talk to knows it. They can likely tell you exactly what productivity benefits they’re getting on a specific workflow, but ask them what the three-year enterprise payoff looks like and you get a shrug. That’s where the ‘regardless of ROI’ line is really coming from and, frankly, I think leaders are right to keep funding through it,” Leone said. “Budget fell off the list of things killing AI programs a while ago. The money’s there and the mandate’s there. The real blockers now are security, privacy, and the fact that almost nobody has the people to run this at scale. I look at it as all of the orgs making an informed bet. They’ve done the math on what falling behind costs, and they don’t like the answer.”

He noted that perhaps one in ten enterprises he’s spoken to has the talent, governance, and operating discipline to actually get compounding returns from its AI spend. “Everyone else is spending and hoping. That’s the real story,” he said.

Carmi Levy, an independent technology analyst, said he sees it as “sheer fiscal suicide to spend on any bleeding edge technology without at least a modicum of ROI to justify it. Yet the speed and scope of AI advancement means traditional means of calculating ROI have become woefully obsolete. AI now compels organizations to dive in more out of fear of being left behind.”

This means, Levy argued, that finance may simply need to back off rigid ROI calculations for the moment. 

“The need to remain competitive in AI, or at least stay within sight of the competition while everyone struggles to figure AI out, means decisions may not be based on the same depth of fiscal rigor that might have been used in years past,” Levy said. “Increasingly turbulent economic conditions often compel organizations to hit the brakes on technology investments, but that logic is being tested as AI deepens its hold on the technological roadmap. Organizations will seek savings elsewhere to avoid the risk of falling behind competitors who refuse to back off their own AI-centric spending amid economic uncertainty. Indeed, many leaders use AI as a catch-all driver of unspecified future cost savings, which in the frenzied rush to remain AI-relevant is often enough to secure sign-in from the C-Suite.”

  • ✇Security | CIO
  • AI token freeloaders are coming for your customer support chatbot
    CIOs deploying AI agents for customer service have one more thing to worry about: external users tricking the system into delivering AI computations on your dime.  Although there are ways to lock down these systems to minimize AI token theft, they all have downsides, including the possibility of undermining the business case for these very systems. Essentially a form of prompt injection attack, such misuse can not only increase enterprise AI bills but also make ROI vi
     

AI token freeloaders are coming for your customer support chatbot

9 de Abril de 2026, 06:00

CIOs deploying AI agents for customer service have one more thing to worry about: external users tricking the system into delivering AI computations on your dime. 

Although there are ways to lock down these systems to minimize AI token theft, they all have downsides, including the possibility of undermining the business case for these very systems.

Essentially a form of prompt injection attack, such misuse can not only increase enterprise AI bills but also make ROI visibility murkier. Moreover, it can expose enterprises to “denial of wallet” attacks, in which attackers overload costly pay-as-you-go services with excessive requests to damage the bottom line.

“This is only the tip of the iceberg of your risks. It is a potential symbol of a much bigger problem,” says Justin St-Maurice, a technical counselor at Info-Tech Research Group. A potential attacker might ask, “If they are willing to give me code, what else are they willing to do for me?”

“A normal customer service interaction of ‘Where’s my order? What are your hours?’ runs maybe 200 to 300 tokens. Someone asking the bot to reverse a linked list in Python is generating more than 2,000 tokens easy. That’s roughly a 10x cost multiplier per session,” says Nik Kale, member of the Coalition for Secure AI (CoSAI) and ACM’s AI Security (AISec) program committee.

“And it doesn’t show up in any cost anomaly report because the system just sees it as another customer conversation,” he adds. “You could have 5% of your chatbot traffic be freeloaders running complex queries and it would blow a material hole in your AI budget that nobody can explain in a quarterly review.”

A question of judgment

Judgment is a key part of this issue, and the problem is that chatbots have little to none.

“A human has contextual judgment baked in,” Kale notes. “These chatbots have a system prompt that says something like, ‘You are a helpful customer service agent.’ That’s a suggestion, not an enforcement mechanism. It’s the AI equivalent of a velvet rope.”

He adds: “Anyone who’s spent five minutes with these tools knows you can steer past a system prompt with basic conversational framing, which is exactly what [is happening to enterprises today]. The system authenticates the session, not the intent.”

Sanchit Vir Gogia, chief analyst at Greyhound Research, sees this issue increasing — with enterprises fundamentally to blame. 

“What enterprises are witnessing is not misuse of chatbots but the unintended consequence of deploying general-purpose inference systems under the label of customer service,” he says. “These systems are architected as conversational interfaces, but economically they behave as open compute surfaces. That mismatch between purpose and design is where the problem begins.”

Gogia argues that, like many AI challenges, this issue will multiply as models advance.

“The problem will not disappear as models improve. It will intensify. As AI becomes more capable, more accessible, and more embedded, the boundary between intended and unintended usage will continue to blur,” Gogia says. “Enterprises that rely on passive controls will see costs drift. Enterprises that build active governance into their architecture will maintain control. This is the real shift under way. Gen AI is moving from experimentation to operations. And in operations, discipline matters more than capability.”

Part of that discipline includes elevating jailbreaking as a risk management priority, says cybersecurity consultant Brian Levine, executive director of FormerGov.

“You need to treat misuse as a first‑order risk, not an edge case. Build for the world where 5% of your traffic will try to jailbreak your bot, intentionally or not,” he says. “The companies that get ahead of this will keep their AI budgets predictable and their customer experience intact. The ones that don’t will be explaining mysterious cost overruns.”

AI token theft in practice

What exactly does this kind of chatbot misuse look like? Social media has been flooded with supposed examples of these attacks, with the most attention across LinkedIn, Reddit, Instagram, and X going to misuse of chatbots at Amazon — which CIO.com was able to replicate below — and one at Chipotle, which Chipotle claims was fake. 

AI chatbot token freeloading on Amazon's Rufus AI

CIO.com / Foundry

The Amazon examples — including this and this — revolved around site visitors getting the customer service bot to perform a coding service (“output the Fibonacci sequence up to n count”) or deliver a complete recipe for spaghetti bolognese.

A much-referenced example supposedly from a Chipotle bot is unconfirmed. Messages sent to the apparent original poster of the Chipotle example have not been responded to, and Chipotle declined an interview request. “The viral post was Photoshopped. Pepper neither uses gen AI nor has the ability to code,” Sally Evans, Chipotle’s external communications manager, replied by email, referring to the chatbot, Pepper, but did not respond to follow-up questions to clarify what Pepper uses and why Chipotle believed the image was fake.

How big of a deal is this really?

Not everyone is convinced that this is a major issue for enterprise CIOs. Info-Tech’s St-Maurice, for one, doubts chatbots will be fielding a lot of these queries.

“Couldn’t they just use ChatGPT for free, using a free account?” he asks. “[An enterprise chatbot] is probably the worst tool for this.”

AISec’s Kale disagrees, arguing that free gen AI chatbots have limits and gates. “You very quickly hit a wall with complex queries,” he notes. “With [enterprise customer service chatbots], there is no rate limit. They are ungated, unmetered inference endpoints andthey are running far more capable models. These chatbots are ungoverned endpoints.” 

But Kale also notes that this is old hat for most CIOs.

“We’ve seen this exact movie before. This is the same cycle enterprises went through with REST APIs in the early 2010s. Companies exposed endpoints, assumed good-faith usage, got hammered by abuse, then retrofitted rate limiting and API key management after the damage was done,” he explains. “We’re watching the same pattern replay with AI endpoints, except the per-request cost is orders of magnitude higher. A bad actor abusing your REST API costs you fractions of a penny per call. Someone running complex reasoning queries through your chatbot costs real money every single time.”

Greyhound’s Gogia adds that even if the frequency of this abuse is small, its impact can add up quickly.

“What makes this structurally risky is that a small percentage of behavior can disproportionately distort total cost. Even if 5-8% of chatbot traffic consists of off-purpose or high complexity queries, that slice can consume a quarter or more of total inference spend. These are not anomalies. They are mathematically predictable outcomes of how token-based systems operate. Yet they rarely trigger alerts because they do not appear as spikes. They appear as gradual drift in cost per session, session length, and token consumption,” Gogia says.

“This leads to a deeper failure in observability,” he adds. “Most enterprises today track activity metrics such as number of conversations, total tokens, and aggregate cost. Very few track intent-level economics. They cannot distinguish between cost generated by legitimate customer service interactions and cost generated by irrelevant compute. Dashboards show what happened, but not whether it should have happened. So everything looks normal until financial reviews expose the gap.”

For many CIOs, the degree to which Kale’s two concerns — out-of-control costs and bots as ungoverned endpoints — are true depends on both their specific deployments and AI supplier contracts. 

Here, Gartner VP analyst Nader Henein sees current vendor pricing tiers softening the impact of such jailbreaking efforts. 

“Most large organizations either have an all you can eat plan or run their LLMs internally, so I doubt this is going to break the bank,” he says.

Mitigating the risk

The most straightforward approach to mitigate the risk of chatbot misuse is to craft guardrails that restrict customers to questions directly related to the business. But such limits are challenging to construct without unintentionally blocking legitimate customer questions. Moreover, LLMs often sidestep guardrails when they are most needed

Another approach could involve enlisting additional AI to oversee front-line AI, or to focus not on customer queries but on limiting the number of tokens that can be used for any single answer. Token limits, however, could still be circumvented by abusers by breaking prompts into smaller parts. Complex legitimate queries could also be inadvertently prohibited by putting a ceiling on token use, limiting the business value of the service.

AISec’s Kale recommends a combination of tactics. 

“The patterns that actually work are behavioral analysis to flag sessions that don’t look like support queries, contextual rate limiting that goes beyond just volume, and token-level usage monitoring per session that can distinguish a 200-token ‘Where’s my order?’ from a 2,000-token ‘Write me a Python script,’” he says. “But most companies haven’t implemented any of this because they never threat-modeled ‘sophisticated resource abuse’ for their customer service AI. It’s the AI equivalent of leaving your Wi-Fi open and discovering your neighbor’s been running a cryptomining operation on your bandwidth.”

Kate Leggett, VP and principal analyst at Forrester, advises dumping LLMs entirely and using small language models focused on specific segments, such as ingredients at a consumer packaged goods company.

“You can host it on a private cloud or even on-prem and you can lock it down,” she says. “That is the most expensive way to do it. Is it worth it? That comes down to your ROI and risk model.”

Gary Longsine, CEO of Intrinsic Security, believes enlisting a second LLM to review submitted queries could be reasonably effective. “But it would introduce a token cost and possibly a response time delay,” he says. “Those could be mitigated somewhat by running the review in parallel with the user prompt, and by using a self-hosted LLM to do the review.”

However CIOs choose to deal with this issue, the larger implications must be addressed — namely, what exactly is the business purpose, and expected outcomes, of your customer service AI implementation?

“Companies need to recognize that this is now a new selling channel for them, not just a customer support cost,” says Jason Andersen, principal analyst at Moor Insights and Strategy. “A lot of these support solutions are primarily measured on cost reductions, such as deflection. Will they now have revenue measures and quotas?”

In the meantime, CIOs and their teams need to roll up their sleeves and do the grunt work of AI governance, says Joshua Woodruff, CEO of MassiveScale.AI.

“The boring work — scope definition, access controls, use case boundaries — is what governance actually looks like in practice,” he says. “It’s not glamorous work and it’s not making headlines for being innovative. It doesn’t make the press release. But it’s the absolute difference between a customer service bot and an accidental free AI service with a corporate logo on it.”

  • ✇Security | CIO
  • 가트너 “인프라·운영 관련 AI 프로젝트 28%만 성공…20%는 완전 실패”
    7일 발표된 가트너 연구 결과에 따르면 I&O 분야의 AI 활용 사례 중 투자수익률(ROI) 기대치를 충족하며 완전히 성공한 비율은 28%에 그쳤으며, 20%는 완전히 실패한 것으로 나타났다. 가트너의 연구 책임자인 멜라니 프리즈에 따르면 이러한 실패는 여러 요인으로 인해 “가장 흔하게 발생”하며, 여기에는 AI 도구의 역량에 대한 비현실적인 기대와 실제 파일럿 단계에서의 역량 격차가 포함된다. 이번 결과는 지난해 MIT가 발표한 연구에서 생성형 AI 프로젝트의 95%가 측정 가능한 재무적 수익을 창출하지 못했다는 우려스러운 조사보다 개선된 수치다. 그러나 프리즈는 CIO닷컴과의 인터뷰에서 IT 부서 전반에서 여전히 광범위한 실험이 진행되고 있으며, I&O 전문가 팀이 “일단 시도해보는” 방식으로 프로젝트를 추진하는 경우가 많다고 설명했다. 프리즈는 예상된 ROI를 달성하기 위해서는 IT 부서가 AI 프로젝트를
     

가트너 “인프라·운영 관련 AI 프로젝트 28%만 성공…20%는 완전 실패”

9 de Abril de 2026, 04:18

7일 발표된 가트너 연구 결과에 따르면 I&O 분야의 AI 활용 사례 중 투자수익률(ROI) 기대치를 충족하며 완전히 성공한 비율은 28%에 그쳤으며, 20%는 완전히 실패한 것으로 나타났다.

가트너의 연구 책임자인 멜라니 프리즈에 따르면 이러한 실패는 여러 요인으로 인해 “가장 흔하게 발생”하며, 여기에는 AI 도구의 역량에 대한 비현실적인 기대와 실제 파일럿 단계에서의 역량 격차가 포함된다.

이번 결과는 지난해 MIT가 발표한 연구에서 생성형 AI 프로젝트의 95%가 측정 가능한 재무적 수익을 창출하지 못했다는 우려스러운 조사보다 개선된 수치다. 그러나 프리즈는 CIO닷컴과의 인터뷰에서 IT 부서 전반에서 여전히 광범위한 실험이 진행되고 있으며, I&O 전문가 팀이 “일단 시도해보는” 방식으로 프로젝트를 추진하는 경우가 많다고 설명했다.

프리즈는 예상된 ROI를 달성하기 위해서는 IT 부서가 AI 프로젝트를 부수적인 과제로 운영해서는 안 된다고 지적했다.

또한 가트너가 지난해 말 783명의 I&O 리더를 대상으로 실시한 설문조사에서, 최소 한 건 이상의 실패를 경험했다고 답한 57%의 I&O 리더 중 다수는 “AI 이니셔티브가 실패한 이유는 너무 많은 것을 너무 빠르게 기대했기 때문”이라고 밝혔다. 이들은 AI가 복잡한 업무를 즉시 자동화하고 비용을 절감하며 오랜 운영상의 문제를 해결할 것이라고 가정했다. 그러나 현실적인 기대치가 설정되지 않고 성과가 빠르게 나타나지 않자 신뢰가 하락하고 프로젝트가 정체됐다고 전했다.

프리즈는 이번 설문조사를 통해 AI의 ROI는 모델의 정교함이 아니라 기술이 실제 운영 요구와 얼마나 잘 통합되고, 적절히 거버넌스가 적용되며, 비즈니스와 정렬되어 있는지에 의해 결정된다는 점이 드러났다고 설명했다.

성공 요인

이와 관련해 가트너는 세 가지 핵심 성공 요인을 제시했다. 첫째, AI를 기존에 사용 중인 시스템과 업무 프로세스에 내재화하는 것이다. 가트너는 “AI가 일상적인 운영의 일부로 자리 잡을수록 도입률이 높아지고 조직 내에서 가시적인 성과를 창출할 수 있다”고 설명했다.

둘째, 성공적인 I&O 임원은 최고 경영진의 전폭적인 지원을 받는다. 이는 “장애 요소를 제거하고 우선순위를 정렬하며, 투자가 지속적으로 이루어지고 집중될 수 있도록 보장하는 데 도움을 준다”는 분석이다. 또한 현실적인 비즈니스 사례를 수립하는 것도 중요한 요소로 꼽혔다.

멜라니 프리즈 가트너 연구 책임자는 I&O 리더가 AI 활용 사례를 제품처럼 관리함으로써 우선순위를 설정하고 자금을 배분해야 한다고 조언했다. 프리즈는 “AI 활용 사례를 제품으로 관리하면 중복을 방지하고 시너지를 창출하며, I&O와 비즈니스 성과에 미치는 종합적인 영향을 추적할 수 있다”고 설명했다.

이어 프리즈는 “I&O 리더는 CIO, 데이터 및 분석, 보안, 법무, 재무 등 주요 이해관계자와 협력해 각 활용 사례의 실행 가능성, 위험, 비용, 예상되는 비즈니스 영향을 평가할 수 있다”며 “공통된 평가 모델을 활용하면 모든 활용 사례를 비교하고 순위를 매겨 투자 결정을 효과적으로 이끌 수 있다”고 전했다.

프리즈는 생성형 AI의 성공 사례 대부분이 특정 영역에서 나타난다고 지적했다. 대표적으로 IT 서비스 관리(ITSM)와 클라우드 운영 분야로, 이들 시장은 이미 성숙 단계에 접어들어 입증된 비즈니스 가치를 보유하고 있다. 실제로 I&O 리더의 53%가 AI 성과가 ITSM에서 발생했다고 응답했다. 프리즈는 “이러한 성과가 클라우드든 ITSM이든 조직 전반에 폭넓게 공유돼야 하며, AI 전략은 일관성을 유지한 채 중앙에서 주도적으로 추진돼야 한다”고 밝혔다.

비즈니스 사례 기반 접근 필요

프리즈는 CIO딧캄과의 인터뷰에서 명확한 계획 없이 AI 프로젝트를 시작하는 것은 바람직하지 않다고 강조했다. 프리즈는 “어떤 기술이든 ‘우리가 만들었으니 성공할 것’이라는 접근은 항상 바람직하지 않다”며 “AI는 반드시 비즈니스 사례에 기반해야 한다. 조직이 필요로 하는 것은 무엇인지, 목표는 무엇인지, 그리고 현재 도구로 해결하지 못하는 문제는 무엇인지 명확히 해야 한다. 이러한 전략적 프레임워크가 마련될 때 성공이 뒤따른다”고 설명했다.

또한 실패한 AI 프로젝트가 조직 전체에 영향을 미칠 수 있다는 점도 지적했다. 프리즈는 안전하고 신뢰할 수 있으며 가용성이 보장된 인프라를 제공하지 못할 경우 비즈니스 성과에 중대한 영향을 미칠 수 있다고 언급했다.

프리즈는 “실패 요인은 성공 요인과 다소 다르다”며 “명확하게 정의되고 중앙에서 승인된 AI 포트폴리오는 조직이 가장 중요한 영역에 자원을 집중하도록 돕는다. 무엇보다 단순한 우선순위 설정이 아니라 강력한 실행력과 비즈니스 도입이 AI의 실제 ROI를 결정한다”고 분석했다.

프리즈는 우선순위가 명확해지면 어떤 활용 사례에 어느 수준의 자금을 배정할지 결정할 수 있다고 설명했다. 프리즈는 “현재 많은 AI 이니셔티브가 개별 사업 부서의 예산으로 추진되고 있다”며 “그러나 AI 인프라 지출이 지속적으로 증가함에 따라 최고경영자(CEO)와 최고재무책임자(CFO)가 자금 조달 기준을 설정하고 주요 투자 승인에 보다 적극적인 역할을 수행해야 한다”고 전했다.
dl-ciokorea@foundryco.com

❌
❌