I. Introdução
Na era atual de rápido desenvolvimento da IA, vários modelos de grandes linguagens são constantemente iterados e actualizados. Hoje, vamos avaliar em profundidade cinco grandes modelos de topo: ChatGPT o3-mini, Grok3 thinking, Claude3.7 thinking, Deepseek-r1 e Gemini-2.0-Pro, e comparar os seus desempenhos em diferentes cenários em todos os aspectos.
II. Comparação da avaliação e análise aprofundadas
para responder à mesma pergunta utilizando cada um dos modelos do ShirtAI separadamente.O ShirtAI tem acesso ilimitado e gratuito às versões completas do GPT Plus, Claude Pro, Grok Super e Deepseek, e o site oficial está a um clique de distância:www.lsshirtai.com
Título 1:Os trabalhadores de uma fábrica de chá têm de embalar caixas de chá rectangulares com 20 cm de comprimento e largura e 10 cm de altura em caixas de cartão quadradas com dentes de 30 cm de comprimento (medidos a partir do interior). Qual é o número máximo de caixas que cabem numa caixa de cartão? Como é que cabem?
Conclusão:A resposta é 6 caixas, o modelo de raciocínio claude-3.7-thinking ganha, rápido e preciso. O deepseek-r1 é o mais lento mas tem a resposta correta, o Grok3 deepthinking e o O3-mini têm a resposta errada.
Título 2:A função $$f(x) = e^x + ax^2 - x.$$ é conhecida (1) Discuta a monotonicidade de $f(x)$ quando $a = 1$; (2) Quando $x \geq 0$, $f(x) \geq \ frac{1}{2}x^3 + 1$, encontre o intervalo de valores de $a$.
Conclusão:Todos os modelos dão a resposta correta, mas o o3-mini é melhor em termos de velocidade.
Além disso, realizámos outros testes com os seguintes resultados:
cenário de teste | ChatGPT o3-mini | Pensamento Grok3 | Claude3.7 pensando | Deepseek-r1 | Gemini-2.0-Pro |
---|---|---|---|---|---|
Problemas matemáticos complexos (Teorema de Bayes) |
A explicação básica é clara, mas carece de profundidade e pormenor, e os casos são simples | As explicações são vivas e são introduzidas analogias visuais intuitivas, mas falta um pouco de rigor na derivação | O processo de prova mais sistemático, com explicações aprofundadas dos conceitos, casos de rastreio médico pormenorizados e cálculos claros | As derivações matemáticas são as mais rigorosas e as fórmulas estão muito bem apresentadas, mas as explicações dos casos são relativamente académicas | Equilibra teoria e prática, mas não é tão bom como o Claude e o Deepseek em pormenores específicos |
competências de codificação (Seleção rápida) |
A funcionalidade básica é implementada corretamente, mas a eficiência do código e o tratamento dos limites são fracos | Algoritmo correto, estrutura de código ligeiramente redundante, sugestões práticas de otimização | O código é claro e fácil de ler, os comentários detalhados, a explicação de cada passo da ideia, a análise de complexidade é abrangente | O código é o mais simplificado e eficiente, com um tratamento optimizado das condições de fronteira e uma análise aprofundada da complexidade | Fornece múltiplas implementações, incluindo a triagem in situ e a programação funcional, com alguns casos-limite não bem considerados |
Escrita criativa (2050) |
A história flui bem, mas é um pouco insípida, e os elementos tecnológicos futuristas favorecem o imaginário comum | Bom na construção de uma grande visão do mundo, arrojado na descrição da tecnologia, ligeiramente fraco na caraterização das emoções | O enredo é rico e vívido, as personagens são tridimensionais e os pormenores tecnológicos são simultaneamente inovadores e sensatos, incorporando elementos emocionais | Pormenores técnicos exactos mas ligeiramente estereotipados, narrativa insuficiente | A estrutura da narrativa é completa, a tecnologia e as questões sociais estão bem integradas, falta um pouco de inovação |
inferência lógica (Dilema do Prisioneiro) |
Explicação exacta dos conceitos subjacentes, mas não uma análise suficientemente aprofundada | A análise é mais aprofundada, introduzindo uma perspetiva evolutiva da teoria dos jogos e discutindo estratégias de equilíbrio para jogos repetidos | A teoria é explicada de forma muito clara e derivada logicamente, fornecendo exemplos da vida real em várias áreas | A modelação matemática é construída de forma mais rigorosa, mas os exemplos são ligeiramente académicos | Equilíbrio entre teoria e aplicação prática com uma grande variedade de estudos de caso |
Globalmente, as vantagens e desvantagens dos modelos são comparadas da seguinte forma:
modelação | vanguarda | inferior | Cenários mais aplicáveis |
---|---|---|---|
ChatGPT o3-mini | - Melhor desempenho em modelos leves - tempo de resposta rápido - Tratamento preciso de questões básicas |
- Capacidade limitada de raciocínio complexo - O pensamento profundo não é tão funcional como outros modelos |
- Perguntas e respostas simples do dia a dia - Criação de conteúdos básicos - Cenários de aplicações ligeiras |
Pensamento Grok3 | - Transparência no processo de reflexão - Excelentes capacidades de raciocínio lógico - Explicar conceitos de uma forma viva e interessante |
- Conhecimentos ligeiramente inferiores da língua chinesa - Profundidade insuficiente em certos domínios especializados |
- Raciocínio complexo que exige ver o processo de pensamento - Estimulação do pensamento inovador |
Claude3.7 pensando | - A combinação mais equilibrada de competências - Seguimento exato do comando - A criatividade e a lógica andam de mãos dadas - Alucinações mínimas |
- Ligeiramente menos especializados em sectores verticais específicos do que os modelos especializados | - Criação de conteúdos que exigem um equilíbrio entre criatividade e exatidão - Tarefas de comando complexas |
Deepseek-r1 | - Competências matemáticas e de programação extremamente fortes - Melhor compreendido em chinês - Raciocínio académico rigoroso |
- A escrita criativa é relativamente estereotipada - As representações genéricas não são tão vivas como outros modelos |
- desenvolvimento do programa - Investigação científica em matemática - Geração de conteúdos académicos chineses |
Gemini-2.0-Pro | - Conhecimentos alargados - Forte compreensão multimodal - Abundância de casos práticos |
- Falta de profundidade em alguns cenários de raciocínio complexos | - Interações multimodais que exigem a combinação de imagens - Perguntas e respostas com grande intensidade de conhecimentos |
III. comparação dos modelos básicos
Nome do modelo | empresa de desenvolvimento | Tempo de libertação | Tamanho do modelo | Cargas |
---|---|---|---|---|
ChatGPT o3-mini | OpenAI | julho de 2024 | Cerca de 7 mil milhões de parâmetros | Versões gratuitas e pagas Plus |
Pensamento Grok3 | xAI | julho de 2024 | não revelado | xAI Membro |
Claude3.7 pensando | Antrópica | agosto de 2024 | não revelado | Parcialmente gratuito, Claude Pro pago |
Deepseek-r1 | pesquisa em profundidade | maio de 2024 | 236 mil milhões de parâmetros | freeware |
Gemini-2.0-Pro | Google Empresa de Internet | maio de 2024 | não revelado | Parcialmente gratuito, versão premium paga |
IV. Quadro comparativo das competências essenciais
dimensão de capacidade | ChatGPT o3-mini | Pensamento Grok3 | Claude3.7 pensando | Deepseek-r1 | Gemini-2.0-Pro |
---|---|---|---|---|---|
Perguntas e respostas gerais | 4 | 5 | 5 | 4 | 4 |
competências de codificação | 3 | 4 | 5 | 5 | 4 |
raciocínio matemático | 3 | 4 | 4 | 5 | 4 |
raciocínio lógico | 3 | 5 | 5 | 4 | 4 |
Escrita criativa | 4 | 4 | 5 | 3 | 4 |
comando seguinte | 4 | 4 | 5 | 4 | 4 |
Conhecimentos da língua chinesa | 4 | 3 | 4 | 5 | 4 |
Profundidade de pensamento | 3 | 5 | 5 | 4 | 4 |
controlo ilusionista | 3 | 3 | 5 | 4 | 4 |
v. síntese das conclusões
Após uma série de análises, chegámos às seguintes conclusões:
- Melhor desempenho global: pensamento Claude 3.7, excelente na maioria dos testes, especialmente em escrita criativa, seguimento de comandos e controlo de ilusões
- Melhor Especialização: O Deepseek-r1 foi o melhor em código, matemática e conteúdo especializado em chinês
- Melhor processo de pensamento: o pensamento Grok3 e o pensamento Claude3.7 foram os mais transparentes na demonstração do processo de pensamento
- Melhor aplicação leve: o ChatGPT o3-mini tem a melhor relação preço/desempenho entre as aplicações leves
- Melhor Multimodal: Gemini-2.0-Pro é líder no tratamento de conteúdos multimodais
O modelo a escolher deve, em última análise, basear-se no seu cenário de utilização específico. Se procura uma experiência totalmente equilibrada, o Claude 3.7 é uma boa escolha; para necessidades de programação e matemática, vale a pena considerar o Deepseek-r1; e se precisa de um assistente diário leve, o ChatGPT o3-mini também pode satisfazer as necessidades básicas.
Para o ajudar a explorar o potencial dos modelos, foram preparados recursos adicionais. Para dominar as técnicas de palavras-chave de grandes modelos e interagir com os modelos de forma eficiente, clique na hiperligação:Dicas de palavras para o grande modelo Para além disso, aqui estão estratégias práticas para o ajudar a desbloquear as poderosas funcionalidades do modelo.
Se pretender utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: f15303420735) se não souber como efetuar o carregamento.