“O futuro da IA deve ser acessível, disponível e aberto a pessoas e construtores em todos os lugares, e não deve exigir uma quantidade absurda de recursos disponíveis apenas para alguns provedores de nuvem”, Paolo Ardoino, CEO, Tether.
Cerca de 700 milhões de pessoas usam IAs generativas como Gemini e ChatGPT semanalmente, mas a adoção está longe de ser uniforme. O inquérito sobre o estado da IA de 2025 da McKinsey descobriu que quase metade dos inquiridos de empresas com mais de 5 mil milhões de dólares em receitas atingiram a fase de expansão da IA, em comparação com apenas 29% dos entrevistados de empresas com menos de 100 milhões de dólares em receitas, uma lacuna que só aumenta mais abaixo na cadeia, bloqueando pequenas empresas, programadores e utilizadores comuns.
O varejo e as pequenas empresas estão limitados aos utilitários básicos de IA que suas instalações podem alimentar, como inferência baseada em texto e geração de multimídia, usando modelos básicos. Isso representa bilhões de usuários finais e desenvolvedores impedidos de utilizar e desenvolver software inteligente devido às altas demandas de infraestrutura.
A estrutura de ajuste fino LoRA da Tether para o Bitnet LLM da Microsoft é um passo importante no desenvolvimento de um sistema de infraestrutura que suporta bilhões de agentes de IA e máquinas inteligentes. Ao reduzir a sobrecarga computacional do aprendizado de máquina e permitir que dispositivos de nível consumidor executem operações avançadas, a abordagem de ponta da Tether garante maior alavancagem para uma população maior.
Imagine um modelo de 13 bilhões de parâmetros sendo ajustado em dispositivos portáteis de uso diário, como Samsung S25 e iPhone 16, bem como em computadores pessoais comuns. A inovação combina eficiência de recursos e técnicas independentes de plataforma para desenvolver uma estrutura de ajuste fino para o LLM quantizado ternário.
Por trás da estrutura de ajuste fino da Bitnet da Tether
O Bitnet LLM nasceu da visão de um modelo inteligente de IA que não consome recursos computacionais exorbitantes, mesmo com precisão total. As tentativas anteriores de IA com eficiência de recursos dependiam de compensações, como a execução de modelos de parâmetros pequenos com maior precisão ou modelos de parâmetros maiores com menor precisão, mas nenhuma das abordagens resolveu totalmente o problema.
A Bitnet adota uma abordagem mais fundamental. O resultado é um modelo que atinge eficiência linear enquanto consome apenas uma fração dos recursos computacionais tradicionalmente necessários.
O desafio, entretanto, é que as GPUs contemporâneas são otimizadas para as próprias operações de ponto flutuante que o Bitnet elimina, criando uma lacuna de compatibilidade de hardware. Para agravar isso, o Bitnet foi originalmente confinado ao seu próprio mecanismo de inferência Bitnet.cpp, limitando sua utilidade mais ampla. A inovação do Tether aborda ambas as restrições ao mesmo tempo, integrando um back-end de GPU Vulkan e Metal que desbloqueia verdadeiros recursos de plataforma cruzada para inferência BitNet e ajuste fino de LoRA em GPUs de consumo heterogêneas, incluindo GPUs móveis. O Bitnet agora pode ser executado em mecanismos de inferência mais maduros e amplamente suportados, sem sacrificar suas vantagens de eficiência.
A natureza multiplataforma do Vulkan é fundamental aqui. Ao contrário do CUDA, que vincula os desenvolvedores ao hardware NVIDIA, o Vulkan é executado em uma ampla variedade de GPUs e sistemas operacionais, abrindo o Bitnet para uma implantação genuinamente multiplataforma. A estrutura de ajuste fino Bitnet da Tether implementa uma técnica de mosaico dinâmico para mitigar as limitações na alocação de buffer do driver Vulkan em GPUs móveis.
A técnica de algoritmo de mosaico dinâmico foi aplicada pela primeira vez na estrutura de ajuste fino do QVAC Fabric LLM, o modelo de IA que alimenta o aplicativo QVAC Workbench da Tether.
Esta implementação demonstra a eficiência desta abordagem: ajustar um modelo de 13 bilhões de parâmetros em uma variedade de dispositivos de consumo com configurações de GPU variadas.
A estrutura de ajuste fino Bitnet LLM é a mais recente conquista do Tether e parte de uma expansão mais ampla em IA de código aberto e tecnologias de comunicação que desafiam os sistemas atuais, lentos, frágeis e controlados. Esses desenvolvimentos são de código aberto e empacotados como módulos no QVAC SDK para fácil implantação e para ajudar os desenvolvedores a criar aplicativos de IA inovadores sem precisar da permissão de ninguém.
Tether prevê a superinteligência como um elemento fundamental possuído por seu proprietário e está aplicando isso por meio de:
IA local primeiro
Sinônimo de IA descentralizada, a IA “local-first” visa criar soluções soberanas de IA que não dependam de infraestrutura centralizada, como data centers, para operar. São consideradas rentáveis, relativamente mais sustentáveis e indiscutivelmente mais privadas do que a IA centralizada. A Tether está construindo aplicativos de IA que dependem inteiramente dos recursos do dispositivo. Esses aplicativos armazenam dados na memória do dispositivo e utilizam seus processadores para operações avançadas, como ajuste fino e inferência.
Rede de computação P2P para inferência de IA
Os aplicativos de IA do Tether são desenvolvidos no tempo de execução Pear. Pear é uma plataforma de ferramentas para aplicações totalmente P2P que podem operar sem servidores. Pear aproveita a pilha de tecnologia Holepunch. Holepunch foi desenvolvido especificamente para comunicação direta e estável entre dispositivos. Pear permite inferência delegada para aplicações de IA, como QVAC Workbench. A inferência delegada permite uma arquitetura de estação de trabalho dinâmica e unificada, onde as tarefas de computação são distribuídas de maneira fluida entre ambientes móveis e de desktop, permitindo que qualquer dispositivo transfira o processamento de alta intensidade para o sistema mais capaz. Ou seja, você pode iniciar uma tarefa no seu dispositivo móvel e delegá-la ao seu desktop ou laptop para conclusão.
IA para todos
A única maneira de adaptar a inteligência às necessidades de uma sociedade com dez mil milhões de habitantes é levá-la ao limite. Isto, por sua vez, depende do progresso alcançado por experiências destinadas a localizar a computação de IA de forma rentável.
Bilhões de agentes de IA e incontáveis aplicações de IA implantados por desenvolvedores em todas as regiões do mundo, funcionando efetivamente com recursos de propriedade dos usuários, são a única maneira de democratizar a superinteligência e evitar a criação de outra tecnologia de ponta “luxuosa” controlada por unicórnios e totalmente acessível apenas às elites.
A Tether é pioneira em superinteligência ilimitada para uma sociedade e aplicações em constante crescimento. Seguir a jornada para soluções de IA verdadeiramente locais e inovadoras
Fonte: Computer World












