A Microsoft anunciou o lançamento de três novos modelos fundacionais de inteligência artificial desenvolvidos internamente. Os modelos, batizados de MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2, foram projetados para oferecer qualidade de classe mundial com velocidades de processamento significativamente superiores e preços competitivos. A iniciativa demonstra o esforço contínuo da empresa em fortalecer suas capacidades proprietárias de IA, disponibilizando as novas ferramentas através do Microsoft Foundry e do MAI Playground.
O MAI-Transcribe-1 foi desenvolvido para entregar transcrições de fala para texto com precisão de ponta, suportando os vinte e cinco idiomas mais utilizados globalmente. O modelo foi otimizado para lidar com ambientes reais e ruidosos, apresentando uma velocidade de transcrição em lote duas vezes e meia superior à oferta existente do Microsoft Azure Fast. Segundo a empresa, a combinação de precisão e eficiência torna o modelo uma opção altamente atrativa para desenvolvedores que buscam soluções robustas para produtos globais.
O segundo modelo anunciado, o MAI-Voice-1, foca na geração de voz com alto grau de realismo. A ferramenta é capaz de produzir falas naturais que preservam a identidade do locutor, mantendo a expressividade e a gama emocional mesmo em conteúdos longos. Uma característica notável é a capacidade de gerar sessenta segundos de áudio em apenas um segundo de processamento. A Microsoft também introduziu a possibilidade de criar vozes personalizadas de forma segura, exigindo apenas alguns segundos de áudio original como base.
Completando o trio, o MAI-Image-2 chega para impulsionar a geração de imagens, ferramenta que já está sendo implementada em produtos como o Copilot, Bing e PowerPoint. O modelo foi criado pensando nas necessidades de fotógrafos, designers e contadores de histórias visuais, oferecendo iluminação natural, tons de pele precisos e a capacidade de renderizar textos claros dentro das imagens. Dados de tráfego de produção real indicam que os usuários estão experimentando tempos de geração pelo menos duas vezes mais rápidos, mantendo um alto padrão de qualidade.
A Microsoft enfatizou que os novos modelos MAI foram desenvolvidos com uma abordagem centrada no ser humano, otimizando as interações para a forma como as pessoas se comunicam naturalmente. Alinhados com os compromissos de segurança e responsabilidade da empresa, os modelos passaram por rigorosos testes de equipe vermelha. Através do Microsoft Foundry, os desenvolvedores têm acesso a controles de nível empresarial e salvaguardas integradas, garantindo que a implantação em escala ocorra de maneira segura e em conformidade com as regulamentações.