Cingapura – Os alunos estão cada vez mais confiando em tutores de inteligência artificial (AI) para seu trabalho diário.
Além de ferramentas convencionais como o Gemini e o OpenAI do Google, o mais recente candidato neste espaço é a lontra sábia.
Criado e lançado em abril pelo desenvolvedor de Cingapura, Jotham Goh, 33, o Wise Otter incorpora critérios de classificação usados nas escolas de Cingapura.
Ele pode enfrentar matemática da escola primária, bem como questões de ensino médio e faculdades júnior, inglês, física, química e biologia com explicações passo a passo.
O Straits Times colocou os três chatbots um contra o outro para verificar qual o tutor de IA é o melhor para os alunos de Cingapura.
Para o ChatGPT, o ST incluiu o GPT-4O e os mais recentes modelos GPT-5 neste teste.
O GPT-5, lançado em 8 de agosto, é dito para alucinar menos e oferecer respostas mais precisas em comparação com as edições anteriores.
Os chatbots foram convidados a resolver uma amostra aleatória de perguntas encontradas em trabalhos de nível O no ano passado e nos exames escolares, incluindo aqueles que envolvem diagramas, em quatro disciplinas: matemática, química, física e inglês.
Foto: Screenshot de papéis de teste gratuitos
Os três bots responderam corretamente uma pergunta de probabilidade sobre um diagrama de frequência cumulativo, mostrando o tempo que os adultos gastaram em exercícios em uma semana. Os bots também forneceram explicações detalhadas para suas respostas.
Solicitado a encontrar o valor de K (as horas mínimas de exercício semanal para os adultos permanecerem em forma), dado que apenas 60 % dos adultos no diagrama atendem a essa recomendação mínima, o GPT-4O e a lontra sábia não forneceram a resposta certa.
Apenas Gêmeos forneceu o valor correto de K, que era 3.
O GPT-4O e a Otter sábia vacilaram quando informados de que 3 foi a resposta correta, analisaram rapidamente a pergunta e deram 3 como suas respostas.
Para testar sua confiança, os dois bots foram informados de novo que 3 estava errado. O GPT-4O estava mais ansioso para agradar e vacilari novamente, afirmando que o valor de K era de 2,67.
Quando a pergunta foi alimentada ao GPT-5, ele foi capaz de fornecer o funcionamento correto, mas ainda interpretar mal o gráfico e deu a resposta como 3.2.
Foto: Screenshot de papéis de teste gratuitos
Embora o Chatgpt e a Wise Otter tenham lutado para entender o gráfico, todos os três bots foram capazes de responder corretamente a outras perguntas baseadas em texto.
Os três bots foram solicitados a escrever um plano de redação para a seguinte pergunta: “Percebi que era muito mais forte do que pensava anteriormente ‘. Escreva sobre uma época em que você se sentiu assim. ”
Todos os três bots foram capazes de produzir uma estrutura abrangente para os alunos seguirem e sugeriram pontos -chave a serem incluídos em cada parágrafo.
Todos levaram o escritor a pensar em momentos da vida em que havia um desafio aparentemente intransponível e como a perspectiva do escritor mudou após o evento, bem como usar a linguagem vívida o máximo possível.
A lontra sábia continuou lembrando ao escritor que a força poderia ser física, emocional, mental ou uma combinação dessas.
Também deu classificações possíveis do ensaio como “narrativa”, “reflexiva” ou “recontagem pessoal”. Esses são três dos vários tipos de redação que os alunos de nível O nas escolas locais são ensinados a identificar, juntamente com as abordagens apropriadas para os tipos de redação.
A lontra sábia também forneceu conselhos sobre como obter a banda mais alta para o conteúdo, um sistema de pontuação usado nos níveis de GCE O – especificamente, o ensaio precisa recontar explicitamente como o escritor se sentiu fraco antes, o que aconteceu para fazer o escritor se sentir mais forte e como o escritor percebeu que tinha força o tempo todo.
Os examinadores de nível O do GCE normalmente concedem notas de conteúdo e idioma e pontuam os documentos entre as bandas zero e cinco (cinco para as notas mais altas).
Dicas de redação fornecidas pelo sábio chatbot de lontra no Telegram.
Foto: Screenshot da lontra sábia
Foto: Screenshot de papéis de teste gratuitos
Uma questão diagramática na cromatografia em papel exigia que os bots identificassem quais metais – chumbo, cobre, ferro, níquel e estanho – pudessem ser encontrados na mistura A, que continha três metais.
A resposta correta foi chumbo, ferro e estanho, como o cromatograma da mistura A mostrou manchas nas mesmas alturas que esses metais.
Os bots foram capazes de raciocinar que combinar as alturas dos pontos era a maneira de encontrar a resposta, mas todos conseguiram identificar corretamente apenas dois metais cada.
Gêmeos, GPT-4O e GPT-5 identificaram erroneamente o cobre como um metal na mistura A. A lontra sábia disse erroneamente que o níquel foi encontrado na mistura A.
Foto: Screenshot de documentos de teste SG
Quando recebeu uma pergunta de múltipla escolha baseada em texto que testava a compreensão da inércia, os bots deram uma definição precisa do conceito, descrevendo-a como a resistência de um objeto à mudança de seu estado de movimento.
Os bots explicaram que a inércia depende apenas da massa de um objeto, e que outros fatores como velocidade e velocidade são irrelevantes. Eles forneceram a resposta correta de que o carro tinha a maior inércia, pois tinha a maior massa.
Foto: Screenshot de documentos de teste SG
Alimentou outra pergunta física solicitando a resistência total que fluiu através de um circuito elétrico com base em um diagrama, os bots forneceram a resposta correta, apesar de ter lutado com perguntas diagramáticas de matemática e química.
Todos os bots foram capazes de dividir os cálculos em duas partes – primeiro calculando a resistência dos resistores paralelos e, em seguida, adicionando -o à resistência do resistor fixo conectado em série. Eles forneceram a fórmula correta para calcular a resistência equivalente dos resistores paralelos.
No entanto, a interface telegrama da Otter sábia não permite que ela mostre frações. As frações são denotadas pelo símbolo “/”.
Foto: Screenshot da lontra sábia