Desvendando o Futuro: Microsoft Aprimora GPT-4 para Operar Android de Maneira Autônoma

 

Desvendando o Futuro: Microsoft Aprimora GPT-4 para Operar Android de Maneira Autônoma

 

Os cientistas alcançaram um aumento notável de 27% nas taxas de sucesso ao realizar engenharia simples e rápida em modelos de linguagem de inteligência artificial (IA). 


Imagem by IA


Embora a operação autônoma do ChatGPT dentro dos limites de um sistema operacional tenha sido um desafio complexo, uma equipe composta por pesquisadores da Microsoft Research e da Universidade de Pequim parece ter desvendado esse mistério.

Um estudo liderado pela equipe visava entender por que grandes modelos de linguagem de IA, como o GPT-4, enfrentam dificuldades em lidar com tarefas que exigem a manipulação de sistemas operacionais. Apesar de os sistemas de última geração, como o ChatGPT executado em GPT-4, definirem padrões para tarefas generativas, a transição para atuar como agentes em ambientes gerais apresenta desafios significativos.

Tradicionalmente, os modelos de IA são treinados usando aprendizado por reforço em ambientes virtuais, muitas vezes utilizando versões modificadas de videogames populares. Contudo, a operação dentro de um sistema operacional revelou-se um desafio multimodal, envolvendo a interação entre diferentes componentes, programas e aplicações.

Os pesquisadores trabalharam com diversos modelos de linguagem, incluindo o Llama2 70B da Meta, o GPT-3.5 e o GPT-4 da OpenAI, concluindo que nenhum deles apresentou um desempenho notável. A equipe desenvolveu o AndroidArena, um novo ambiente de treinamento que permitiu aos modelos explorar um ambiente semelhante ao sistema operacional Android, identificando quatro capacidades principais – compreensão, raciocínio, exploração e reflexão – como essenciais para o sucesso.

Durante a pesquisa, os cientistas identificaram um método "simples" para aumentar a precisão do modelo em 27%. Ao fornecer informações automatizadas sobre tentativas anteriores, resolveram o problema da falta de "reflexão", incorporando memória nos prompts usados. Essa descoberta pode ter implicações significativas na busca por aprimorar assistentes de IA.

Postar um comentário

Postagem Anterior Próxima Postagem

Formulário de contato