Grandes modelos de linguagem são desafiadores para adaptar a novas tarefas empresariais. O uso de prompts é propenso a erros e alcança ganhos de qualidade limitados, enquanto o ajuste fino requer grandes quantidades de dados humanos rotulados que não estão disponíveis para a maioria das tarefas empresariais. Hoje, estamos introduzindo um novo método de ajuste de modelo que requer apenas dados de uso não rotulados, permitindo que as empresas melhorem a qualidade e o custo para IA usando apenas os dados que já possuem. Nosso método, Otimização Adaptativa em Tempo de Teste (TAO), aproveita o cálculo em tempo de teste (popularizado por o1 e R1) e o aprendizado por reforço (RL) para ensinar um modelo a realizar uma tarefa melhor com base apenas em exemplos de entrada anteriores, o que significa que ele escala com um orçamento de cálculo de ajuste ajustável, não com o esforço de rotulagem humana. Crucialmente, embora o TAO use cálculo em tempo de teste, ele o usa como parte do processo para treinar um modelo; esse modelo então executa a tarefa diretamente com baixos custos de inferência (ou seja, não requer cálculo adicional no momento da inferência). Surpreendentemente, mesmo sem dados rotulados, o TAO pode alcançar melhor qualidade de modelo do que o ajuste fino tradicional, e pode trazer modelos de código aberto baratos como o Llama para dentro da qualidade de modelos proprietários caros como o GPT-4o e o3-mini.
TAO faz parte do programa de nossa equipe de pesquisa sobre Inteligência de Dados - o problema de fazer a IA se destacar em domínios específicos usando os dados que as empresas já possuem. Com TAO, alcançamos três resultados empolgantes:
A Figura 1 mostra como o TAO melhora os modelos Llama em três tarefas empresariais: FinanceBench, DB Enterprise Arena e BIRD-SQL (usando o dialeto SQL do Databricks)². Apesar de ter acesso apenas a entradas LLM, TAO supera o ajuste fino tradicional (FT) com milhares de exemplos rotulados e traz Llama para a mesma faixa que modelos proprietários caros.
Figura 1: TAO em Llama 3.1 8B e Llama 3.3 70B em três benchmarks empresariais. TAO leva a melhorias substanciais na qualidade, superando o ajuste fino e desafiando LLMs proprietários caros.
TAO agora está disponível em pré-visualização para clientes Databricks que desejam ajustar Llama, e estará alimentando vários produtos futuros. Preencha este formulário para expressar seu interesse em testá-lo em suas tarefas como parte da pré-visualização privada. Neste post, descrevemos mais sobre como o TAO funciona e nossos resultados com ele.
Em vez de exigir dados de saída anotados por humanos, a ideia chave no TAO é usar o cálculo em tempo de teste para que um modelo explore respostas plausíveis para uma tarefa, e então use aprendizado por reforço para atualizar um LLM com base na avaliação dessas respostas. Este pipeline pode ser escalado usando cálculo em tempo de teste, em vez de esforço humano caro, para aumentar a qualidade. Além disso, ele pode ser facilmente personalizado usando insights específicos da tarefa (por exemplo, regras personalizadas). Surpreendentemente, a aplicação desta escala com modelos de código aberto de alta qualidade leva a melhores resultados do que rótulos humanos em muitos casos.