MAI-Voice-1 gera “fala natural e realista, rica em nuances, alcance emocional e expressão”, de acordo com a Microsoft, e foi construída para preservar a identidade do locutor em conteúdo longo. O modelo pode gerar um minuto de áudio em “um único segundo” e seu baixo uso de GPU o torna rápido e acessível.
MAI-Image-2 tem desempenho e velocidade de geração de imagens “turbinados” no Copilot, de acordo com Redmond. Ele estreou entre as três principais famílias de modelos na tabela de classificação Arena.ai e em breve será lançado no Bing e PowerPoint.
A Microsoft disse que o modelo foi criado com a ajuda de fotógrafos, designers e contadores de histórias visuais que “exigem iluminação natural, tons de pele e textura precisos”, além de exigir texto claro para gráficos, layouts e diagramas.
Fonte: Computer World












