O Que é ChatGPT e Como Você Pode Usá-lo?

A OpenAI introduziu uma IA de resposta a perguntas de formato longo chamada ChatGPT, que responde a perguntas complexas por meio de conversação.

É uma tecnologia revolucionária porque é treinada para aprender o que os humanos querem dizer quando fazem uma pergunta.

Muitos usuários ficam impressionados com sua capacidade de fornecer respostas de qualidade humana, inspirando a sensação de que pode eventualmente ter o poder de interromper a forma como os humanos interagem com os computadores e mudar a forma como as informações são recuperadas.

O QUE É O CHATGPT?

ChatGPT é um grande chatbot de modelo de linguagem desenvolvido pela OpenAI baseado em GPT-3.5.

Ele tem uma capacidade notável de interagir na forma de diálogo de conversação e fornecer respostas que podem parecer surpreendentemente humanas.

Grandes modelos de linguagem executam a tarefa de prever a próxima palavra em uma série de palavras.

Aprendizagem por Reforço com Feedback Humano (RLHF) é uma camada adicional de treinamento que usa feedback humano para ajudar o ChatGPT a aprender a capacidade de seguir instruções e gerar respostas satisfatórias para os humanos.

QUEM CRIOU O CHATGPT?

O ChatGPT foi criado pela empresa de inteligência artificial OpenAI, com sede em San Francisco.

OpenAI Inc. é a empresa controladora sem fins lucrativos da OpenAI LP com fins lucrativos.

A OpenAI é famosa por seu conhecido DALL·E, um modelo de aprendizado profundo que gera imagens a partir de instruções de texto chamadas de prompts.

O CEO é Sam Altman, que anteriormente foi presidente da Y Combinator.

A Microsoft é parceira e investidora no valor de US$ 1 bilhão de dólares.

Eles desenvolveram em conjunto a plataforma Azure AI.

MODELOS DE LINGUAGEM GRANDES

ChatGPT é um modelo de linguagem grande (LLM).

Os Large Language Models (LLMs) são treinados com grandes quantidades de dados para prever com precisão qual palavra vem a seguir em uma frase.

Descobriu-se que aumentar a quantidade de dados aumenta a capacidade dos modelos de linguagem de fazer mais.

De acordo com a Universidade de Stanford:

“O GPT-3 tem 175 bilhões de parâmetros e foi treinado em 570 gigabytes de texto. Para efeito de comparação, seu predecessor, o GPT-2, era 100 vezes menor, com 1,5 bilhão de parâmetros.

Esse aumento na escala muda drasticamente o comportamento do modelo — o GPT-3 é capaz de executar tarefas para as quais não foi explicitamente treinado, como traduzir frases do inglês para o francês, com poucos ou nenhum exemplo de treinamento.

Este comportamento foi ausente principalmente no GPT-2. Além disso, para algumas tarefas, o GPT-3 supera os modelos que foram explicitamente treinados para resolver essas tarefas, embora em outras tarefas fique aquém.”

Os LLMs prevêem a próxima palavra em uma série de palavras em uma frase e as próximas frases - como o preenchimento automático, mas em uma escala alucinante.

Essa habilidade permite que eles escrevam parágrafos e páginas inteiras de conteúdo.

Mas os LLMs são limitados porque nem sempre entendem exatamente o que um ser humano deseja.

E é aí que o ChatGPT se aprimora no estado da arte, com o já mencionado treinamento de Aprendizagem por Reforço com Feedback Humano (RLHF).

COMO O CHATGPT FOI TREINADO?

O GPT-3.5 foi treinado em grandes quantidades de dados sobre código e informações da Internet, incluindo fontes como discussões do Reddit, para ajudar o ChatGPT a aprender o diálogo e atingir um estilo humano de resposta.

O ChatGPT também foi treinado usando feedback humano (uma técnica chamada Aprendizado por Reforço com Feedback Humano) para que a IA aprendesse o que os humanos esperavam quando faziam uma pergunta.

Treinar o LLM dessa maneira é revolucionário porque vai além de simplesmente treinar o LLM para prever a próxima palavra.

Um artigo de pesquisa de março de 2022 intitulado Modelos de linguagem de treinamento para seguir instruções com feedback humano explica por que essa é uma abordagem inovadora:

“Este trabalho é motivado por nosso objetivo de aumentar o impacto positivo de grandes modelos de linguagem, treinando-os para fazer o que um determinado conjunto de humanos deseja que eles façam.

Por padrão, os modelos de linguagem otimizam o objetivo de previsão da próxima palavra, que é apenas um proxy para o que queremos que esses modelos façam.

Nossos resultados indicam que nossas técnicas prometem tornar os modelos de linguagem mais úteis, verdadeiros e inofensivos.

Tornar os modelos de linguagem maiores não os torna inerentemente melhores em seguir a intenção do usuário.

Por exemplo, modelos de linguagem grandes podem gerar saídas que são falsas, tóxicas ou simplesmente não úteis para o usuário.

Em outras palavras, esses modelos não estão alinhados com seus usuários.”

Os engenheiros que construíram o ChatGPT contrataram empreiteiros (chamados de etiquetadores) para classificar os resultados dos dois sistemas, GPT-3 e o novo InstructGPT (um “modelo irmão” do ChatGPT).

Com base nas avaliações, os pesquisadores chegaram às seguintes conclusões: 

“Os etiquetadores preferem significativamente as saídas do InstructGPT às saídas do GPT-3.

Os modelos InstructGPT mostram melhorias na veracidade em relação ao GPT-3.

O InstructGPT mostra pequenas melhorias na toxicidade em relação ao GPT-3, mas não viés.”

O trabalho de pesquisa conclui que os resultados do InstructGPT foram positivos.

Ainda assim, também observou que havia espaço para melhorias.

“No geral, nossos resultados indicam que o ajuste fino de grandes modelos de linguagem usando preferências humanas melhora significativamente seu comportamento em uma ampla gama de tarefas, embora ainda haja muito trabalho a ser feito para melhorar sua segurança e confiabilidade”. 

O que diferencia o ChatGPT de um simples chatbot é que ele foi especificamente treinado para entender a intenção humana em uma pergunta e fornecer respostas úteis, verdadeiras e inofensivas.

Por causa desse treinamento, o ChatGPT pode contestar certas perguntas e descartar partes da pergunta que não fazem sentido.

Outro trabalho de pesquisa relacionado ao ChatGPT mostra como eles treinam a IA para prever o que os humanos preferem.

O pesquisador notaram que as métricas usadas para avaliar as saídas da IA de processamento de linguagem natural resultaram em máquinas que pontuaram bem nas métricas, mas não se alinharam com o que os humanos esperavam.

O seguinte é como os investigadores explicaram o problema: 

“Muitos aplicativos de aprendizado de máquina otimizam métricas simples que são apenas proxies aproximados para o que o designer pretende. Isso pode levar a problemas, como recomendações do YouTube que promovem click-bait.”

Portanto, a solução que eles projetaram foi criar uma IA que pudesse gerar respostas otimizadas para o que os humanos preferiam.

Para fazer isso, eles treinaram a IA usando conjuntos de dados de comparações humanas entre diferentes respostas, para que a máquina se tornasse melhor em prever o que os humanos julgavam ser respostas satisfatórias.

O jornal compartilha que o treinamento foi feito resumindo postagens do Reddit e também testado resumindo notícias.

O trabalho de pesquisa de fevereiro de 2022 é chamado Learning to Summarize from Human Feedback.

Os pesquisadores escrevem: 

“Neste trabalho, mostramos que é possível melhorar significativamente a qualidade do resumo treinando um modelo para otimizar as preferências humanas.

Coletamos um grande conjunto de dados de alta qualidade de comparações humanas entre resumos, treinamos um modelo para prever o resumo preferido pelos humanos e usamos esse modelo como uma função de recompensa para ajustar uma política de resumo usando aprendizado por reforço.”

QUAIS SÃO AS LIMITAÇÕES DO CHATGPT?

Limitações na Resposta Tóxica

ChatGPT é especificamente programado para não fornecer respostas tóxicas ou prejudiciais. Portanto, evitará responder a esses tipos de perguntas.

A qualidade das respostas depende da qualidade das direções

Uma limitação importante do ChatGPT é que a qualidade da saída depende da qualidade da entrada.

Em outras palavras, orientações de especialistas (prompts) geram melhores respostas.

As respostas nem sempre estão corretas

Outra limitação é que, por ser treinado para fornecer respostas que pareçam corretas para os humanos, as respostas podem enganar os humanos de que a saída está correta.

Muitos usuários descobriram que o ChatGPT pode fornecer respostas incorretas, incluindo algumas totalmente incorretas. 

Os moderadores do site de perguntas e respostas sobre codificação Stack Overflow podem ter descoberto uma consequência não intencional de respostas que parecem certas para os humanos.

O Stack Overflow foi inundado com respostas de usuários geradas pelo ChatGPT que pareciam estar corretas, mas muitas eram respostas erradas.

As milhares de respostas sobrecarregaram a equipe de moderadores voluntários, levando os administradores a proibir qualquer usuário que postar respostas geradas pelo ChatGPT.

A enxurrada de respostas do ChatGPT resultou em uma postagem intitulada: Política temporária: ChatGPT foi banido:

“Esta é uma política temporária destinada a diminuir o fluxo de respostas e outros conteúdos criados com o ChatGPT.

…O principal problema é que, embora as respostas que o ChatGPT produz tenham uma alta taxa de incorretas, elas normalmente “parecem” que “podem” ser boas…”

A experiência dos moderadores do Stack Overflow com respostas erradas do ChatGPT que parecem ter certeza é algo que a OpenAI, os criadores do ChatGPT, estão cientes e alertados em seu anúncio da nova tecnologia.

OPENAI EXPLICA AS LIMITAÇÕES DO CHATGPT

O anúncio da OpenAI ofereceu esta ressalva: 

“O ChatGPT às vezes escreve respostas que parecem plausíveis, mas incorretas ou sem sentido.

Corrigir esse problema é desafiador, pois:

(1) durante o treinamento de RL, atualmente não há fonte de verdade;

(2) treinar o modelo para ser mais cauteloso faz com que ele recuse perguntas que pode responder corretamente; e

(3) o treinamento supervisionado engana o modelo porque a resposta ideal depende do que o modelo sabe, e não do que o demonstrador humano sabe.”

O USO DO CHATGPT É GRATUITO?

Atualmente, o uso do ChatGPT é gratuito durante o período de “visualização da pesquisa”.

Atualmente, o chatbot está aberto para que os usuários experimentem e forneçam feedback sobre as respostas, para que a IA possa responder melhor às perguntas e aprender com seus erros.

O anúncio oficial afirma que a OpenAI está ansiosa para receber feedback sobre os erros: 

“Embora tenhamos feito esforços para fazer com que o modelo rejeite solicitações inapropriadas, às vezes ele responde a instruções prejudiciais ou exibe comportamento tendencioso.

Estamos usando a API de moderação para avisar ou bloquear certos tipos de conteúdo inseguro, mas esperamos que haja alguns falsos negativos e positivos por enquanto.

Estamos ansiosos para coletar feedback do usuário para ajudar nosso trabalho contínuo para melhorar este sistema.”

E mais:

“Os usuários são incentivados a fornecer feedback sobre as saídas problemáticas do modelo por meio da interface do usuário, bem como sobre falsos positivos/negativos do filtro de conteúdo externo, que também faz parte da interface.

Estamos particularmente interessados em feedback sobre resultados negativos que podem ocorrer no mundo real, em condições não adversas, bem como feedback que nos ajuda a descobrir e entender novos riscos e possíveis mitigações."

OS MODELOS DE LINGUAGEM SUBSTITUIRÃO AS PESQUISAS DO GOOGLE?

O próprio Google já criou um chatbot AI que se chama LaMDA.

O desempenho do chatbot do Google estava tão próximo de uma conversa humana que um engenheiro do Google afirmou que o LaMDA era senciente.

Dado como esses grandes modelos de linguagem podem responder a tantas perguntas, é improvável que uma empresa como OpenAI, Google ou Microsoft um dia substitua a pesquisa tradicional por um chatbot de IA?

Alguns no Twitter já estão declarando que o ChatGPT será o próximo Google.

O cenário de que um chatbot de perguntas e respostas possa um dia substituir o Google é assustador para aqueles que ganham a vida como profissionais de marketing de busca.

Isso gerou discussões em comunidades de marketing de busca online, como o popular Facebook SEOSignals Lab, onde alguém perguntou se as buscas poderiam mudar dos mecanismos de busca para os chatbots.

Tendo testado o ChatGPT, tenho que concordar que o medo de que a busca seja substituída por um chatbot não é infundado.

A tecnologia ainda tem um longo caminho a percorrer, mas já é possível vislumbrar um futuro híbrido de busca e chatbot para busca.

Mas a atual implementação do ChatGPT parece ser uma ferramenta que, em algum momento, vai exigir a compra de créditos para usar.

COMO O CHATGPT PODE SER USADO?

O ChatGPT pode escrever código, poemas, músicas e até contos no estilo de um autor específico.

A experiência em seguir instruções eleva o ChatGPT de uma fonte de informação a uma ferramenta que pode ser solicitada para realizar uma tarefa.

Isso o torna útil para escrever um ensaio sobre praticamente qualquer tópico.

O ChatGPT pode funcionar como uma ferramenta para gerar esboços de artigos ou até romances inteiros.

Ele fornecerá uma resposta para praticamente qualquer tarefa que possa ser respondida com texto escrito.

CONCLUSÃO

Como mencionado anteriormente, o ChatGPT é concebido como uma ferramenta que o público eventualmente terá que pagar para usar.

Mais de um milhão de usuários se registraram para usar o ChatGPT nos primeiros cinco dias desde que foi aberto ao público.

Rodrigo Nascimento

Apaixonado por escrever e compartilhar ideias que fazem a diferença, dedico-me a criar conteúdos que inspirem e informem sobre temas variados, desde tecnologia e saúde até finanças e espiritualidade. Sempre em busca de novas perspectivas e experiências, procuro trazer dicas e reflexões práticas para quem deseja aprimorar diferentes áreas da vida. Seja explorando tendências tecnológicas, discutindo o bem-estar ou refletindo sobre relações e autoconhecimento, meu objetivo é oferecer um conteúdo enriquecedor e acessível. Acompanhe meus textos e embarque nessa jornada de aprendizado e transformação.

Postar um comentário

Seja gentil no seu comentário, mesmo se for discordar de algo. Caso contrário, perderá seu tempo comentando.

Postagem Anterior Próxima Postagem