Eingehende Überprüfung von Mainstream Large Language "Inference Models": ChatGPT vs Grok3 vs Claude3.7 vs Deepseek-R1 vs Gemini 2.0 Pro

I. Einleitung

In der heutigen Zeit der schnellen KI-Entwicklung werden verschiedene große Sprachmodelle ständig weiterentwickelt und aktualisiert. Heute werden wir fünf große Modelle eingehend bewerten: ChatGPT o3-mini, Grok3 thinking, Claude3.7 thinking, Deepseek-r1 und Gemini-2.0-Pro, und ihre Leistungen in verschiedenen Szenarien in allen Aspekten vergleichen.

II. vertiefte Bewertung und Analyse im Vergleich

um dieselbe Frage mit jedem der Modelle in ShirtAI separat zu beantworten.ShirtAI bietet kostenlosen, unbegrenzten Zugang zu den Vollversionen von GPT Plus, Claude Pro, Grok Super und Deepseek, und die offizielle Website ist nur einen Klick entfernt:www.lsshirtai.com

Titel 1:Die Arbeiter einer Teefabrik müssen rechteckige Teeschachteln mit einer Länge und Breite von 20 cm und einer Höhe von 10 cm in quadratische Kartons mit Zinken von 30 cm Länge (von innen gemessen) packen. Wie viele Schachteln passen maximal in einen Karton? Wie können sie verpackt werden?

Schlussfolgerung:Die Antwort ist 6 Kästchen, und das Claude-3.7-Denkmodell gewinnt haushoch, schnell und genau. deepseek-r1 ist am langsamsten, hat aber die richtige Antwort, und Grok3 deepthinking und O3-mini haben die falsche Antwort.

 

Titel 2:Die Funktion $$f(x) = e^x + ax^2 - x.$$ ist bekannt (1) Diskutieren Sie die Monotonie von $f(x)$, wenn $a = 1$; (2) Wenn $x \geq 0$, $f(x) \geq \ frac{1}{2}x^3 + 1$, finden Sie den Wertebereich von $a$.

Schlussfolgerung:Alle Modelle geben die richtige Antwort, aber der o3-mini ist in Bezug auf die Geschwindigkeit besser.

 

Darüber hinaus haben wir weitere Tests durchgeführt, die zu folgenden Ergebnissen führten:

Testszenario ChatGPT o3-mini Grok3-Denken Claude3.7 Denken Tiefensuche-r1 Gemini-2.0-Pro
Komplexe mathematische Probleme
(Theorem von Bayes)
Die grundlegenden Erklärungen sind klar, aber es fehlt ihnen an Tiefe und Details, und die Fälle sind einfach Die Erklärungen sind lebendig und es werden intuitive visuelle Analogien eingeführt, aber es fehlt ein wenig an strenger Herleitung Der systematischste Nachweisprozess mit ausführlichen Erklärungen von Konzepten, detaillierten medizinischen Untersuchungsfällen und klaren Berechnungen Die mathematischen Herleitungen sind am strengsten und die Formeln sind wunderschön gestaltet, aber die Fallerklärungen sind relativ akademisch Ausgewogenheit zwischen Theorie und Praxis, aber nicht so gut wie Claude und Deepseek, wenn es um spezifische Details geht
Programmierkenntnisse
(Schnelles Sortieren)
Die Grundfunktionen sind korrekt implementiert, aber die Code-Effizienz und die Handhabung von Grenzen sind mangelhaft. Korrekter Algorithmus, leicht redundante Codestruktur, praktische Optimierungsvorschläge Der Code ist klar und leicht zu lesen, detaillierte Kommentare, Erklärung der einzelnen Schritte der Idee, Komplexitätsanalyse ist umfassend Der Code ist der schlankste und effizienteste, mit optimaler Randbedingungsbehandlung und tiefgreifender Komplexitätsanalyse Bietet eine Vielzahl von Implementierungen, einschließlich In-situ-Sortierung und funktionale Programmierung, wobei einige Grenzfälle nicht berücksichtigt werden
Kreatives Schreiben
(2050)
Die Geschichte fließt gut, ist aber eher fade, und die futuristischen technologischen Elemente begünstigen gewöhnliche Bilder Gut im Aufbau einer großen Weltsicht, kühn in der Darstellung der Technologie, etwas schwach in der Charakterisierung der Gefühle Die Handlung ist reichhaltig und lebendig, die Charaktere sind dreidimensional, und die technischen Details sind sowohl zukunftsweisend als auch sinnvoll und enthalten emotionale Elemente Genaue, aber etwas stereotype technische Details, zu wenig Storytelling Die Erzählstruktur ist vollständig, Technologie und soziale Themen sind gut integriert, es fehlt etwas an Innovation.
logische Schlussfolgerung
(Dilemma des Gefangenen)
Genaue Erläuterung der zugrundeliegenden Konzepte, aber nicht genügend tiefgehende Analyse Die Analyse ist sehr gründlich, da sie eine evolutionäre spieltheoretische Perspektive einführt und Gleichgewichtsstrategien für wiederholte Spiele erörtert Die Theorie wird sehr klar erklärt und logisch hergeleitet, mit Beispielen aus der Praxis in einer Reihe von Bereichen Die mathematische Modellierung ist sehr rigoros, aber die Beispiele sind leicht akademisch Gleichgewicht zwischen Theorie und praktischer Anwendung mit einer Vielzahl von Fallstudien

 

Insgesamt werden die Vor- und Nachteile der Modelle wie folgt verglichen:

Modellierung Dominanz minderwertig Die meisten anwendbaren Szenarien
ChatGPT o3-mini - Beste Leistung bei leichten Modellen
- schnelle Reaktionszeit
- Präzise Bearbeitung von Grundsatzfragen
- Eingeschränkte Fähigkeit zu komplexer Argumentation
- Tiefes Denken ist nicht so funktional wie andere Modelle
- Alltägliche einfache Fragen und Antworten
- Erstellung grundlegender Inhalte
- Leichte Anwendungsszenarien
Grok3-Denken - Transparenz im Denkprozess
- Hervorragende Fähigkeiten zum logischen Denken
- Konzepte auf lebendige und interessante Weise zu erklären
- Geringfügig schlechtere Kenntnisse der chinesischen Sprache
- Unzureichende Tiefe in bestimmten Fachgebieten
- Komplexes Denken, das den Einblick in den Denkprozess erfordert
- Anregung zum innovativen Denken
Claude3.7 Denken - Die ausgewogenste Kombination von Kompetenzen
- Präzises Befolgen von Befehlen
- Kreativität und Logik gehen Hand in Hand
- Minimale Halluzinationen
- Etwas weniger spezialisiert auf bestimmte vertikale Märkte als spezialisierte Modelle - Erstellung von Inhalten, die ein ausgewogenes Verhältnis von Kreativität und Genauigkeit erfordern
- Komplexe Befehlsaufgaben
Tiefensuche-r1 - Extrem gute Code- und Mathematikkenntnisse
- Am besten auf Chinesisch zu verstehen
- Strenge akademische Argumentation
- Kreatives Schreiben ist relativ klischeehaft
- Allgemeine Darstellungen sind nicht so anschaulich wie andere Modelle
- Programmentwicklung
- Wissenschaftliche Forschung in der Mathematik
- Generierung akademischer Inhalte auf Chinesisch
Gemini-2.0-Pro - Umfassendes Wissen
- Ausgeprägtes multimodales Verständnis
- Eine Fülle von praktischen Fällen
- Mangelnde Tiefe bei einigen komplexen Argumentationsszenarien - Multimodale Interaktionen, die die Kombination von Bildern erfordern
- Wissensintensive Fragen und Antworten

III. Vergleich der Modellgrundlagen

Name des Modells Entwicklungsgesellschaft Freigabezeit Modellgröße Entgelte
ChatGPT o3-mini OpenAI Juli 2024 Etwa 7 Milliarden Parameter Kostenlose und Plus-bezahlte Versionen
Grok3-Denken xAI Juli 2024 ungenannt xAI-Mitglied
Claude3.7 Denken Anthropisch August 2024 ungenannt Teilweise kostenlos, Claude Pro kostenpflichtig
Tiefensuche-r1 Vertiefung der Suche Mai 2024 236 Milliarden Parameter Freeware
Gemini-2.0-Pro Google Internet-Unternehmen Mai 2024 ungenannt Teilweise kostenlos, Premium-Version kostenpflichtig

IV. vergleichende Tabelle der Kernkompetenzen

Fähigkeitsdimension ChatGPT o3-mini Grok3-Denken Claude3.7 Denken Tiefensuche-r1 Gemini-2.0-Pro
Allgemeine Fragen und Antworten 4 5 5 4 4
Programmierkenntnisse 3 4 5 5 4
mathematische Argumentation 3 4 4 5 4
logisches Denken 3 5 5 4 4
Kreatives Schreiben 4 4 5 3 4
folgender Befehl 4 4 5 4 4
Chinesische Sprachkenntnisse 4 3 4 5 4
Tiefe des Denkens 3 5 5 4 4
illusionistische Kontrolle 3 3 5 4 4

v. zusammenfassung der schlussfolgerungen

Nach einer umfassenden Prüfung sind wir zu den folgenden Schlussfolgerungen gekommen:

  1. Beste Gesamtleistung: Claude 3,7 im Denken, überragend in den meisten Tests, insbesondere im kreativen Schreiben, im Befolgen von Befehlen und in der Illusionskontrolle
  2. Bestes Fachwissen: Deepseek-r1 war am besten bei Code, Mathe und chinesischen Fachinhalten
  3. Bester Denkprozess: Grok3-Denken und Claude3.7-Denken sind am transparentesten in Bezug auf die Darstellung des Denkprozesses
  4. Beste leichtgewichtige App: ChatGPT o3-mini hat das beste Preis/Leistungsverhältnis unter den leichtgewichtigen Apps
  5. Bestes Multimodal: Gemini-2.0-Pro ist führend im Umgang mit multimodalen Inhalten

Welches Modell Sie wählen, sollte letztlich von Ihrem spezifischen Nutzungsszenario abhängen. Wenn Sie auf der Suche nach einer vollständig ausgewogenen Erfahrung sind, ist Claude 3.7 eine gute Wahl; für Programmier- und Mathematikbedürfnisse ist Deepseek-r1 eine Überlegung wert; und wenn Sie einen leichtgewichtigen täglichen Assistenten benötigen, kann ChatGPT o3-mini auch grundlegende Bedürfnisse erfüllen.

Um Ihnen zu helfen, das Potenzial von Modellen zu erforschen, wurden zusätzliche Ressourcen vorbereitet. Klicken Sie auf den Link, um die Techniken der großen Modellstichwörter zu beherrschen und effizient mit Modellen zu arbeiten:Big Model Prompt Word Tipps Im Folgenden finden Sie praktische Strategien, die Ihnen helfen, die leistungsstarken Funktionen des Modells zu nutzen.

Wenn Sie GPT Plus, Claude Pro, Grok Super offiziellen bezahlten exklusiven Konto verwenden möchten, können Sie unser professionelles Team (wx: f15303420735) kontaktieren, wenn Sie nicht wissen, wie man aufzuladen.

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

Werbefläche

Transit Agent Service basierend auf offiziellen APIs

In dieser Ära der Offenheit und des Teilens führt OpenAI eine Revolution in der künstlichen Intelligenz an. Jetzt geben wir der Welt bekannt, dass wir alle Modelle von OpenAI vollständig unterstützt haben, z.B. GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc. sowie eine Vielzahl von selbstentwickelten großen Modellen. Am aufregendsten ist, dass wir das leistungsfähigere und einflussreichere GPT-4o in die Welt eingeführt haben!

Website-Navigation

Abb. Anfang
Andocken von Dritten
Konsolen
Anweisungen für den Gebrauch
Online-Überwachung

Kontakt

公众号二维码

öffentliche Nummer

企业合作二维码

Zusammenarbeit Wechat

Copyright © 2021-2024 Alle Rechte vorbehalten 2024 | GPTMeta API