WWDC, Apple e AI: esperando pelo presente

Vou sentar (esperando pelo dom do som e da visão)
E eu cantarei (esperando pelo dom do som e da visão)

-David Bowie

A Apple está planejando patrocinar e apresentar 14 artigos de pesquisa de IA na Conferência anual IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões (CVPR) em Denver na próxima semana, poucos dias antes de apresentar novos recursos importantes de IA em sua Conferência Mundial de Desenvolvedores (WWDC).

A nova pesquisa explora tópicos como o uso de LLMs na geração de imagens, testes de qualidade e prototipagem de interface de usuário. Durante meses, rumores sobre a cadeia de suprimentos sugeriram uma evolução radical para os onipresentes AirPods na forma de câmeras ambientais integradas. Com isso em mente, é digno de nota que um dos artigos de pesquisa, “De onde as coisas estão até para que servem: benchmarking de inteligência espacial-funcional para LLMs multimodais”, parece atender especificamente a esses casos de uso.

Acessibilidade para as pessoas

Na aplicação, esta tecnologia promete um profundo potencial de acessibilidade. Isso sugere que alguém com visão limitada pode conseguir que seus AirPods os guiem por uma sala desconhecida. Isso é algo que deve se encaixar bem na narrativa contínua da empresa em torno da inteligência e acessibilidade da visão mecânica.

A acessibilidade é fundamental para uma segunda apresentação a ser feita durante o Workshop de IA Generativa para Linguagem de Sinais na conferência. Liderado por Colin Lea, da Apple, que apresentou uma sessão sobre tecnologia de fala para pessoas com deficiência de fala em um evento semelhante, esse foco na inteligência de visão mecânica e na acessibilidade é totalmente deliberado.

Na verdade, embora a indústria e os críticos condenem a Apple por ficar atrás de outras no espaço da IA, a publicação destes 14 artigos numa importante sessão da indústria pouco antes da WWDC mostra que a empresa tem feito um grande trabalho fundamental nos bastidores. Esperamos que este trabalho dê os seus primeiros frutos na WWDC, e é importante compreender as divulgações como um movimento de poder. A Apple está usando o programa para celebrar seus pontos fortes no desenvolvimento de IA e, considerando sua década de trabalho no Apple Car, muitos desses pontos fortes estão relacionados à inteligência de visão de máquina.

A Apple está tão avançada neste campo que já está a implementar modelos avançados que capacitam os consumidores. Na semana passada, prometeu introduzir uma nova ferramenta chamada Image Explorer no VoiceOver para ajudar clientes com deficiência visual ainda este ano. Entre muitos outros recursos, isso chegará junto com um sistema que permitirá que usuários com deficiência controlem cadeiras de rodas compatíveis com comandos de palavras faladas.

A Apple está ultrapassando os limites ao máximo. Seu artigo “VSAS-Bench: Avaliação em tempo real de modelos de assistente de streaming visual” prova que está refinando ativamente modelos para processar vídeo ao vivo instantaneamente em hardware de consumo.

O que importa, o humano ou a máquina?

A diferença entre a Apple e os seus concorrentes é profunda e filosófica. Eu diria que enquanto outros criam chatbots dependentes da nuvem, a Apple está incorporando ferramentas de IA que resolvem problemas humanos reais em seus sistemas.

Isso se estende aos seus planos na WWDC, onde apresentará uma série de ferramentas de IA feitas com a ajuda do Google Gemini e uma série de serviços de IA que desenvolveu internamente. Este último incluirá muitas ferramentas de acessibilidade do tipo que será discutido no evento CVPR, cuja beleza é que serão executadas de forma privada e no dispositivo. Poderíamos argumentar que, enquanto outros gigantes da tecnologia usam a IA para automatizar empregos de colarinho branco ou construir uma distopia de vigilância, a Apple está à procura de aplicações de inteligência de máquina que resolvam problemas humanos reais.

A empresa parece bastante realista sobre a transformação contínua da IA. Reconhece que o seu próprio ecossistema deve tornar-se um participante semelhante no ambiente emergente de IA aumentada que a indústria tecnológica parece pretender construir.

Com isso em mente, a Apple está disposta a se envolver em parcerias estratégicas e mutuamente benéficas, como permitir que a Siri use serviços de IA de terceiros para lidar com solicitações. Mas mesmo ao fazer isso, também se concentra nas áreas em que pode fazer uma diferença única, como os recursos de acessibilidade que a Apple sempre forneceu como plataforma.

Abrir

Como o Vision Pro demonstrou, e como esses míticos AirPods habilitados para vídeo sugerirão no futuro, os computadores estão cada vez mais inteligentes. Portanto, a forma como os usamos também está mudando à medida que nos afastamos dos limites rígidos de teclados, mouses e telas sensíveis ao toque. A busca da Apple pela computação ambiental começou muito antes da repentina corrida do ouro pelos chatbots generativos de IA.

No final, à medida que estes últimos serviços se tornam mercantilizados, a forma como os humanos interagem com eles definirá a próxima geração de hardware. Isso é empolgante para a Apple, visto que o design do produto é onde ela se destaca. A era do som e da visão pode finalmente ter chegado.

Você pode me seguir nas redes sociais! Junte-se a mim no BlueSky, LinkedIn, Mastodon e MeWe.

Fonte: Computer World

Compartilhe este artigo