O IBM Granite 3.2 usa raciocínio condicional, previsão de séries temporais e visão de documentos para lidar com casos de uso corporativos desafiadores

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais
Após a estreia disruptiva do DeepSeek-R1 , os modelos de raciocínio estão na moda até agora em 2025.
A IBM agora está se juntando à festa, com a estreia hoje de sua família de modelos de linguagem grande (LLM) Granite 3.2. Ao contrário de outras abordagens de raciocínio, como DeepSeek-R1 ou o3 da OpenAI, a IBM está incorporando profundamente o raciocínio em seus principais modelos Granite de código aberto. É uma abordagem que a IBM chama de raciocínio condicional, onde o raciocínio passo a passo da cadeia de pensamento (CoT) é uma opção dentro dos modelos (em oposição a ser um modelo separado).
É uma abordagem flexível em que o raciocínio pode ser ativado condicionalmente com um sinalizador, permitindo que os usuários controlem quando usar um processamento mais intensivo. O novo recurso de raciocínio se baseia nos ganhos de desempenho que a IBM introduziu com o lançamento do Granite 3.1 LLMs em dezembro de 2024.
A IBM também está lançando um novo modelo de visão na família Granite 3.2 especificamente otimizado para processamento de documentos. O modelo é particularmente útil para digitalizar documentos legados, um desafio com o qual muitas grandes organizações lutam.
Outro desafio de IA empresarial que a IBM pretende resolver com o Granite 3.2 é a modelagem preditiva. O aprendizado de máquina (ML) tem sido usado para previsões há décadas, mas não tinha a interface de linguagem natural e a facilidade de uso da IA de geração moderna. É aí que os modelos de previsão de séries temporais Granite da IBM se encaixam; eles aplicam a tecnologia de transformador para prever valores futuros a partir de dados baseados em tempo.
“O raciocínio não é algo que um modelo é, é algo que um modelo faz”, disse David Cox, vice-presidente de modelos de IA da IBM Research, ao VentureBeat.
Embora não tenha faltado entusiasmo e entusiasmo em torno dos modelos de raciocínio em 2025, o raciocínio por si só não necessariamente agrega valor aos usuários corporativos.
A capacidade de raciocinar em muitos aspectos tem sido parte da IA gen há muito tempo. Simplesmente solicitar que um LLM responda em uma abordagem passo a passo aciona uma saída de raciocínio CoT básica. O raciocínio moderno em modelos como DeepSeek-R1 e agora Granite 3.2 vai um pouco mais fundo usando aprendizado por reforço para treinar e habilitar capacidades de raciocínio.
Embora os prompts do CoT possam ser eficazes para certas tarefas como matemática, os recursos de raciocínio no Granite 3.2 podem beneficiar uma gama mais ampla de aplicativos empresariais. Cox observou que, ao encorajar o modelo a gastar mais tempo pensando, as empresas podem melhorar processos complexos de tomada de decisão. O raciocínio pode beneficiar tarefas de engenharia de software, resolução de problemas de TI e outros fluxos de trabalho de agentes onde o modelo pode decompor problemas, fazer melhores julgamentos e recomendar soluções mais informadas.
A IBM também afirma que, com o raciocínio ativado, o Granite 3.2 é capaz de superar rivais, incluindo o DeepSeek-R1, em tarefas de acompanhamento de instruções.
Embora o Granite 3.2 tenha capacidades avançadas de raciocínio, Cox enfatizou que nem toda consulta precisa de mais raciocínio. Na verdade, muitos tipos de consultas comuns podem ser impactadas negativamente com mais raciocínio.
Por exemplo, para uma consulta baseada em conhecimento, um modelo de raciocínio autônomo como o DeepSeek-R1 pode gastar até 50 segundos em um monólogo interno para responder a uma pergunta básica como "Onde fica Roma?"
Uma das principais inovações no Granite 3.2 é a introdução de um recurso de pensamento condicional, que permite aos desenvolvedores ativar ou desativar dinamicamente as capacidades de raciocínio do modelo. Essa flexibilidade permite que os usuários encontrem um equilíbrio entre velocidade e profundidade de análise, dependendo da tarefa específica em questão.
Indo um passo além, os modelos Granite 3.2 se beneficiam de um método desenvolvido pela unidade de negócios Red Hat da IBM que usa algo chamado “filtro de partículas” para permitir recursos de raciocínio mais flexíveis.
Essa abordagem permite que o modelo controle e gerencie dinamicamente múltiplos threads de raciocínio, avaliando quais são os mais promissores para chegar ao resultado final. Isso fornece um processo de raciocínio mais dinâmico e adaptável, em vez de um CoT linear. Cox explicou que essa técnica de filtro de partículas dá às empresas ainda mais flexibilidade em como elas podem usar os recursos de raciocínio do modelo.
Na abordagem do filtro de partículas, há muitos fios de raciocínio ocorrendo simultaneamente. O filtro de partículas está podando as abordagens menos eficazes, focando nas que fornecem melhores resultados. Então, em vez de apenas fazer raciocínio CoT, há múltiplas abordagens para resolver um problema. O modelo pode navegar inteligentemente por problemas complexos, focando seletivamente nas linhas de raciocínio mais promissoras.
Grandes organizações tendem a ter volumes igualmente grandes de documentos, muitos dos quais foram digitalizados anos atrás e agora estão em arquivos. Todos esses dados têm sido difíceis de usar com sistemas modernos.
O novo modelo de visão Granite 3.2 foi projetado para ajudar a resolver esse desafio empresarial. Enquanto muitos modelos multimodais focam na compreensão geral da imagem, os recursos de visão do Granite 3.2 são projetados especificamente para processamento de documentos — refletindo o foco da IBM em resolver problemas empresariais tangíveis em vez de perseguir pontuações de benchmark.
O sistema tem como alvo o que Cox descreveu como “quantidades irracionais de documentos antigos digitalizados” em arquivos corporativos, particularmente em instituições financeiras. Eles representam armazenamentos de dados opacos que permaneceram amplamente inexplorados, apesar de seu potencial valor comercial.
Para organizações com décadas de registros em papel, a capacidade de processar de forma inteligente documentos contendo gráficos, figuras e tabelas representa uma vantagem operacional substancial em relação aos modelos multimodais de uso geral que se destacam na descrição de fotos de férias, mas têm dificuldades com documentos comerciais estruturados.
Em benchmarks empresariais como DocVQA e ChartQA, o IBM Granite Vision 3.2 mostra resultados sólidos em relação aos concorrentes.
Talvez o componente tecnicamente mais distinto do lançamento sejam os “tiny time mixers” (TTM) da IBM – modelos especializados baseados em transformadores, projetados especificamente para previsão de séries temporais.
No entanto, a previsão de séries temporais, que permite análise e modelagem preditivas, não é nova. Cox observou que, por vários motivos, os modelos de séries temporais permaneceram presos na era mais antiga do aprendizado de máquina (ML) e não se beneficiaram da mesma atenção dos modelos de IA de geração mais novos e chamativos.
Os modelos Granite TTM aplicam as inovações arquitetônicas que impulsionaram os avanços do LLM a um domínio de problema totalmente diferente: Prever valores futuros com base em padrões históricos. Essa capacidade aborda necessidades críticas de negócios em previsões financeiras, programação de manutenção de equipamentos e detecção de anomalias.
Não faltam exageros e os fornecedores estão todos afirmando superar uns aos outros em uma infinidade de padrões do setor.
Para tomadores de decisão corporativos, tomar nota de benchmarks pode ser interessante, mas não é isso que resolve os pontos problemáticos. Cox enfatizou que a IBM está adotando a abordagem "terno e gravata" para IA corporativa, buscando resolver problemas reais.
“Acho que há muito pensamento mágico acontecendo de que podemos ter um modelo superinteligente que vai, de alguma forma, fazer tudo o que precisamos que ele faça e, pelo menos por enquanto, não estamos nem perto disso”, disse Cox. “Nossa estratégia é 'Vamos construir ferramentas reais e práticas usando essa tecnologia muito empolgante, e vamos construir o máximo possível de recursos que tornem fácil fazer trabalho real.'”
Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós damos a você informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para obter o máximo de ROI.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais boletins informativos do VB aqui .
Ocorreu um erro.

venturebeat