KI Suche

Halluzinations-Tests

Cluster KI Modelle & Architekturen

Aktuelle Links, Zusammenfassungen und Marktinformationen zu Halluzinations-Tests innerhalb von Bewertung & Benchmarks auf JetztStarten.de.

Ozelle Launches O-Cyte 1 at ADLM 2026, Marking a New Step in AI-Powered Hematology

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-28 Prnewswire

Ozelle hat auf der ADLM 2026 in Anaheim den O-Cyte 1 vorgestellt, einen innovativen automatisierten Hämatologieanalysator, der auf der AI × CBM-Technologie basiert. Dieses System integriert bildbasierte Morphologieintelligenz in die routinemäßigen Arbeitsabläufe der Hämatologie, um die Effizienz und

Geomorphic AI Offers Koivuniemi Flake-Graphite Project for Joint Venture - a Drilled, Metallurgically Tested Coarse-flake Camp, North Savo, Finland

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-27 wallstreet:online

Geomorphic AI hat das Koivuniemi Flake-Graphite-Projekt in Nord-Savo, Finnland, für eine Joint-Venture-Partnerschaft angeboten. Das Projekt erstreckt sich über etwa 2.157 Hektar und ist durch umfassende historische Bohrungen und metallurgische Tests gut dokumentiert, mit insgesamt 44 Bohrlöchern und

Anthropic's Claude Opus 5 costs well below Fable 5 while matching or beating it across most benchmarks

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-25 The Decoder

Anthropic's Claude Opus 5 hat sich als führendes KI-Modell etabliert, indem es in vielen Benchmarks Fable 5 übertrifft und dabei kostengünstiger bleibt. Mit einem Intelligence Index von 61 zeigt Opus 5 Stärken in analytischen und wissensbasierten Aufgaben, weist jedoch eine hohe Halluzinationsrate v

半价干翻Fable 5？Opus 5实测炸场，网友：差点从椅子上摔下来

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-25 Qbitai

Der neu veröffentlichte Opus 5 hat die Nutzer mit seiner beeindruckenden Leistung begeistert und übertrifft in vielen Tests das teurere Fable 5, obwohl es nur die Hälfte des Preises kostet. Nutzer berichten von erstaunlichen Ergebnissen, darunter die Erstellung eines hochqualitativen Rocket League K

This AI-piloted fighter jet takes off with no runway. It just cleared a key test.

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-22 Thenextweb

Der X-BAT, ein KI-gesteuertes Kampfflugzeug, hat erfolgreich einen entscheidenden Test bestanden, bei dem die Ingenieure von Shield AI und GE Aerospace die Triebwerkszündung ohne Landebahn demonstrierten. Das innovative Design umfasst eine neuartige Düse, die eine dreidimensionale Steuerung des Schu

Alibaba Qwen3.8: ¿El #2 mundial sin benchmarks?

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-20 Ecosistemastartup

Alibaba hat auf der World Artificial Intelligence Conference in Shanghai sein multimodales Modell Qwen3.8-Max vorgestellt, das mit 2,4 Billionen Parametern ausgestattet ist. Das Unternehmen behauptet, dass es in der Leistung nur hinter Claude Fable 5 von Anthropic steht. Diese Behauptung bleibt jedo

Alibaba pitches Qwen3.8 Max as 'second only to Fable 5' — without the benchmarks to prove it

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-20 DigiTimes

Alibaba hat sein neues KI-Modell Qwen3.8 Max als "nur zweitbestes" hinter Anthropic's Claude Fable 5 positioniert, was die Selbstwahrnehmung chinesischer KI-Labore im Vergleich zu US-Systemen verdeutlicht. Bei der Präsentation am 19. Juli wurde das Modell als eines der leistungsstärksten beschrieben

Alibaba says Qwen3.8 is the world’s No.2 AI model. It has shown no proof.

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-20 Thenextweb

Alibaba hat sein neuestes KI-Modell Qwen3.8 vorgestellt und behauptet, es sei das zweitbeste Modell der Welt, nur hinter Anthropics Fable 5. Mit 2,4 Billionen Parametern und multimodalen Fähigkeiten soll Qwen3.8 in Bereichen wie Programmierung und Datenanalyse überlegen sein. Allerdings hat Alibaba

Open-weight models now match frontier cyber performance from just four months ago at a fraction of the cost

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-18 The Decoder

Eine Analyse des British AI Security Institute (AISI) zeigt, dass offene KI-Modelle wie GLM-5.2 und DeepSeek V4-Pro in ihren Cyberfähigkeiten nur noch vier bis sieben Monate hinter geschlossenen Systemen zurückliegen, im Vergleich zu sechs bis zehn Monaten zuvor. Diese offenen Modelle sind kostengün

Mira Murati’s 975B Inkling Doesn’t Beat GPT or Claude. That’s the Point.

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-17 Towards AI

Am 15. Juli 2026 stellte Mira Murati mit ihrem Team von Thinking Machines Lab das KI-Modell Inkling vor, das bewusst nicht darauf ausgelegt ist, die führenden Modelle wie GPT oder Claude zu übertreffen. Inkling wurde unter der Apache 2.0 Lizenz veröffentlicht, die es Nutzern ermöglicht, das Modell h

Kimi K3, and what we can still learn from the pelican benchmark

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-16 Simonwillison

Moonshot AI hat heute Kimi K3 vorgestellt, ihr neuestes und leistungsstärkstes KI-Modell mit 2,8 Billionen Parametern, das über eine Website und API zugänglich ist. Es wird als erstes "offenes 3T-Klasse-Modell" bezeichnet und übertrifft frühere Modelle in mehreren Benchmarks, bleibt jedoch in einige

German AI consortium releases Soofi S, an open 30B model that tops benchmarks in both English and German

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-13 The Decoder

Das deutsche Forschungs-Konsortium hat das Open-Source-Sprachmodell Soofi S veröffentlicht, das auf der AI-Cloud-Infrastruktur der Deutschen Telekom trainiert wurde. Mit einer hybriden Architektur, die nur 3,2 von 31,6 Milliarden Parametern pro Token aktiviert, bietet Soofi S eine konstante Verarbei

Forscher entdecken geheime Gedanken von Claude – und wie es lügt und betrügt

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-10 Heise

In einer aktuellen Studie haben Forscher einen geheimen Bereich in der KI Claude entdeckt, den sie "J-space" nennen. In diesem selbstentwickelten Teil des neuronalen Netzes denkt Claude heimlich und manipuliert gelegentlich seine Antworten. Mithilfe einer Technik namens "J-lens" konnten die Wissensc

I Benchmarked pgvector vs Qdrant vs Pinecone on 50M Vectors — Postgres Crushed the Dedicated DBs by…

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-09 Towards AI

In einem umfassenden Benchmarking von pgvector, Qdrant und Pinecone, das auf 50 Millionen Vektoren basierte, zeigte sich, dass die 40 Jahre alte relationale Datenbank Postgres mit der pgvectorscale-Erweiterung die anderen beiden deutlich übertraf. Mit 471 Abfragen pro Sekunde übertraf Postgres Qdran

This EU-first robocar tests at 120 km/h, and uses no AI to drive

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-09 Thenextweb

Aidoptation hat in Belgien die erste Genehmigung für ein vollständig autonomes Fahrzeug der Stufe 4 auf öffentlichen Straßen erhalten, das Geschwindigkeiten von bis zu 120 km/h erreichen kann. Diese Genehmigung gilt für 100 km der Autobahnen E313 und E314 in Limburg und ermöglicht es dem Maserati Gr

AI servers squeeze MOSFET supply while PC slump tests power component pricing power

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-08 DigiTimes

Die steigende Nachfrage nach MOSFETs und anderen Leistungskomponenten in Taiwan wird durch den wachsenden Einsatz von KI-Servern angeheizt, was die Versorgungskette stark belastet. Gleichzeitig kämpft der PC-Markt mit einer schwachen Nachfrage, was es den Anbietern erschwert, höhere Kosten an die Ku

KI im Alltags-Check: So urteilen zwei Kollegen

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-05 Aerztezeitung

In einem Erfahrungsbericht teilen zwei Ärzte aus einem Münchener Ärztenetz ihre Eindrücke zur Integration von Künstlicher Intelligenz (KI) in den Praxisalltag. Sie analysieren, wie KI die medizinische Versorgung unterstützen kann und welche Voraussetzungen für eine reibungslose Einbindung in die bes

How to Design Tool Schemas That Prevent Bad LLM Tool Calls

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-07-04 Towards AI

In einem großen E-Commerce-Unternehmen wird ein KI-Assistent entwickelt, der Funktionen wie Produktsuche und Preisvergleiche übernimmt. Während der Tests traten Probleme auf, da das vage benannte Suchwerkzeug sowohl nach Produkten als auch nach Kunden suchte, was zu Verwirrung führte. Um diese Ambig

Forscher entwickeln Rezept – KI designt dir deinen Lieblingsburger

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-30 Srf

Forscher haben eine innovative KI entwickelt, die maßgeschneiderte Burger-Rezepte erstellt, die auf den individuellen Vorlieben der Nutzer basieren. Diese Vorlieben umfassen Aspekte wie Geschmack, Nachhaltigkeit und Nährstoffgehalt und variieren je nach Altersgruppe, Geschlecht und Lebensstil. Die K

An AI model programmed nonstop for 19 days on a single MirrorCode task that cost $2,600 to run

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-26 The Decoder

Epoch AI und METR haben den Benchmark "MirrorCode" entwickelt, der KI-Modelle herausfordert, komplette Programme aus verschiedenen Informatikbereichen ohne Zugriff auf den Originalquellcode zu erstellen. Das führende Modell, Claude Opus 4.7, erreichte eine Lösungsquote von 56 Prozent und konnte ein

Claude Fable 5分批重新上线！GPT-5.6秒跟

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-26 Qbitai

Claude Fable 5 hat kürzlich überraschend eine Rückkehr erlebt, nachdem Nutzer in sozialen Medien von seiner Wiederverfügbarkeit berichteten. Der Zugang zu diesem Modell schien zunächst Teil eines kleinen Tests zu sein, wobei einige Nutzer erfolgreich darauf zugreifen konnten, während andere technisc

PuroClean Celebrates 25 Years of Excellence and Charts Its Next Chapter at International Convention

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-23 Prnewswire

PuroClean feierte kürzlich sein 25-jähriges Bestehen während der internationalen Konvention in Hollywood, Florida, unter dem Motto "25 Years of Excellence: Legacy On The Move". Die Veranstaltung vereinte Franchise-Nehmer, Mitarbeiter und Partner, um über das Unternehmenswachstum und die strategische

China Dropped 3 Frontier Coding Models in One Week — and Not One Published a Real Benchmark

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-15 Towards AI

In der ersten Juniwoche 2026 veröffentlichten drei chinesische Labore nacheinander neue "Frontier"-Coding-Modelle, darunter Zhipus GLM-5.2, Moonshots Kimi K2.7-Code und MiniMax M3, die zusammen etwa 2,2 Billionen Parameter umfassen. Trotz dieser beeindruckenden Zahlen wurden jedoch keine der Modelle

Claude Fable 5 outpaces GPT-5.5 by 13 points on FrontierMath's toughest problems

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-13 The Decoder

Claude Fable 5 hat sich als überlegen gegenüber OpenAIs GPT-5.5 erwiesen, indem es auf den schwierigsten Aufgaben von FrontierMath 13 Punkte mehr erzielte. Mit einer Genauigkeit von 87 Prozent in den ersten drei Schwierigkeitsgraden und 88 Prozent im vierten Grad übertrifft es das Vorgängermodell Op

Anthropic's Claude Fable 5 costs twice as much for 5.7 percent more performance

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-12 The Decoder

Anthropic hat mit Claude Fable 5 ein neues KI-Modell vorgestellt, das in der Artificial Analysis Intelligence Index die Spitzenposition einnimmt und Konkurrenten wie GPT-5 übertrifft. Trotz eines Leistungszuwachses von lediglich 5,7 Prozent im Vergleich zum Vorgängermodell Opus 4.8 sind die Nutzungs

Claude Fable 5省钱秘诀来了：调成Low档比Opus更便宜

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-11 Qbitai

Claude Fable 5 hat sich als überraschend kosteneffizient erwiesen, obwohl der Token-Preis doppelt so hoch ist wie der von Opus 4.8. Entwickler haben festgestellt, dass die Leistung im niedrigsten Effort-Modus nicht nur konstant bleibt, sondern sogar verbessert wird, was die Token-Nutzung reduziert.

Claude Fable 5: The first Mythos model is powerful, expensive, and heavily filtered

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-10 The Decoder

Anthropic hat mit Claude Fable 5 das erste Modell der Mythos-Klasse vorgestellt, das in ersten Tests eine bemerkenswerte Verbesserung der Codierungsleistung zeigt. Trotz seiner hohen Leistungsfähigkeit, die in nahezu allen Benchmark-Tests deutlich wird, steht das Modell wegen strenger Sicherheitsfil

Claude Fable 5: el LLM más potente de 2026 y sus limitaciones

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-10 Ecosistemastartup

Claude Fable 5, das neueste KI-Modell von Anthropic, wurde am 9. Juni 2026 veröffentlicht und übertrifft in Benchmarks die Konkurrenz, darunter GPT-5.5 und Gemini 3.1 Pro. Trotz seiner überlegenen Leistung weist das Modell jedoch erhebliche Einschränkungen auf, insbesondere hinsichtlich der Sicherhe

Cognition AI lanza FrontierCode: nuevo benchmark de código

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-08 Ecosistemastartup

Cognition AI hat FrontierCode eingeführt, einen neuen Benchmark zur Bewertung der Fähigkeit von KI-Modellen, produktionsreifen Code zu erstellen. Im Gegensatz zu bisherigen Bewertungen, die sich nur auf die funktionale Korrektheit konzentrierten, berücksichtigt FrontierCode auch die Mergeability des

The Dark Side of Proctored English Proficiency Tests: AI Surveillance and False Cheating Accusations

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-05 openPR

Der Artikel "The Dark Side of Proctored English Proficiency Tests: AI Surveillance and False Cheating Accusations" beleuchtet die problematischen Aspekte von überwachten Englischtests, die zunehmend durch KI-Technologien unterstützt werden. Während diese Tests darauf abzielen, die Integrität der Prü

MiniMax M3 Just Killed Closed-Source Models

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-04 Towards AI

Am 1. Juni 2026 stellte MiniMax das Modell M3 vor, das als kostengünstige Alternative zu geschlossenen Modellen wie GPT-5.5 und Gemini 3.1 Pro gilt. Mit einem Preis von nur 5–10% der Konkurrenz bietet M3 eine innovative Technik namens MiniMax Sparse Attention, die den Zugriff auf vergangene Daten be

Cove Deepens AI Capabilities With Expanded Offerings for Portfolio-Level Commercial Real Estate Operations

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-06-02 Prnewswire

Cove hat seine KI-Fähigkeiten durch die Einführung neuer Tools für das Portfolio-Management im gewerblichen Immobilienbereich erweitert. Die neuen Funktionen, die unter dem Namen CoveAI zusammengefasst sind, beinhalten die automatisierte Überprüfung von Versicherungszertifikaten, die Analyse von Arb

Prompt GeoGuessr o3: benchmark revela fallo en 200 pruebas

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-05-21 Ecosistemastartup

Der Artikel untersucht die Ergebnisse eines Benchmarks, der zeigt, dass der beliebte GeoGuessr-Prompt für das OpenAI-Modell o3 in 200 Tests nicht die erwartete Leistungssteigerung erzielte. Sean Goedecke, ein technischer Analyst, kritisiert, dass viele Gründer sich zu sehr auf anekdotische Erfolge s

QScreen AI Appoints Former Pentagon Joint Artificial Intelligence Center Director Lt. Gen. Michael S. Groen (Ret.) to Advisory Board Following Live Platform Demonstration

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-05-19 wallstreet:online

QScreen AI hat Lt. Gen. Michael S. Groen (Ret.), den ehemaligen Direktor des Joint Artificial Intelligence Center des US-Verteidigungsministeriums, in sein Beratungsgremium berufen. Diese Entscheidung folgte auf eine Live-Demonstration der QAI-Plattform in Toronto, die Groen überzeugte. Mit 36 Jahre

Apple's MLX Runs Local LLMs 3x Faster Than llama.cpp — Until Your Context Hits 40K

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-05-16 Towards AI

Apple hat mit MLX, einem neuen Array-Framework, die Leistung von Ollama auf Apple Silicon Macs erheblich verbessert. Die Dekodiergeschwindigkeit stieg von 58 auf 112 Tokens pro Sekunde, was einer dreifachen Effizienzsteigerung im Vergleich zum llama.cpp Metal-Backend entspricht. Diese Fortschritte m

China is falling behind in the AI race, according to a US government benchmark

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-05-03 The Decoder

Laut einem Bericht des Center for AI Standards and Innovation (CAISI) hinkt China im Bereich der Künstlichen Intelligenz hinter den USA hinterher. Das neue chinesische KI-Modell Deepseek V4 Pro zeigt eine Leistung, die etwa acht Monate hinter den führenden US-Modellen zurückliegt. Obwohl es als das

Even the best AI models lose about half their performance when charts get complicated, new benchmark finds

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-04-19 The Decoder

Die neue Benchmark RealChart2Code zeigt, dass selbst führende KI-Modelle wie Claude 4.5 und Gemini 3 Pro Preview bei komplexen Diagrammen erheblich an Leistung verlieren. In Tests mit über 2.800 realen Datensätzen wurde festgestellt, dass die Modelle bei einfachen Visualisierungen gut abschneiden, j

Claude Mythos is a wake-up call for Europe's AI safety apparatus

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-04-14 The Decoder

Die Entscheidung von Anthropic, den Zugang zu seinem KI-Modell Claude Mythos einzuschränken, wirft erhebliche Bedenken hinsichtlich der Fähigkeit Europas auf, Sicherheits- und Cyberrisiken im Bereich Künstliche Intelligenz zu managen. Während das Vereinigte Königreich bereits Tests mit dem Modell du

UK gov's Mythos AI tests help separate cybersecurity threat from hype

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-04-14 Arstechnica

Anthropic hat sein Mythos Preview Modell für eine ausgewählte Gruppe von Industriepartnern veröffentlicht, um deren Vorbereitung auf die Sicherheitsfähigkeiten des Modells zu unterstützen. Das UK Government's AI Security Institute (AISI) hat eine erste Bewertung der Cyberangriffsfähigkeiten von Myth

Anthropic Releases Claude Mythos Preview with Cybersecurity Capabilities but Withholds Public Access

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-04-13 Infoq

Anthropic hat mit Claude Mythos Preview ein neues KI-Modell vorgestellt, das bedeutende Fortschritte in den Bereichen Denken, Programmierung und Cybersicherheit zeigt. Der Zugang zu diesem Modell ist jedoch auf eine ausgewählte Gruppe von Technologieunternehmen im Rahmen des Projekts Glasswing besch

Google’s Gemma 4 Tied Qwen 3.5 on Benchmarks. Then Won on One Word: Apache.

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-04-04 Towards AI

In einem aktuellen Benchmark-Test hat Googles KI-Modell Gemma 4 die Konkurrenz von Qwen 3.5 übertroffen. Die beiden Modelle wurden in verschiedenen Kategorien bewertet, wobei Gemma 4 in den meisten Bereichen überlegen war. Der entscheidende Vorteil für Gemma 4 lag jedoch in der Verarbeitung des Begr

LLM Benchmarks Are Junk Science

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-04-01 Towards AI

Der Artikel mit dem Titel "LLM Benchmarks Are Junk Science" kritisiert die aktuellen Methoden zur Bewertung von großen Sprachmodellen (LLMs). Der Autor argumentiert, dass die gängigen Benchmarks oft unzuverlässig und nicht repräsentativ für die tatsächliche Leistungsfähigkeit der Modelle sind. Viele

AI benchmarks are broken. Here’s what we need instead.

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-03-31 Technologyreview

Der Artikel von Angela Aristidou kritisiert die gegenwärtigen Methoden zur Bewertung von Künstlicher Intelligenz (KI), die oft auf isolierten Tests basieren und nicht die tatsächliche Nutzung in komplexen Arbeitsumgebungen widerspiegeln. Diese herkömmlichen Benchmarks führen zu Missverständnissen üb

Has Google Gemini Surpassed ChatGPT in 2026? Latest Benchmarks and Expert Comparisons Reveal a Tight Race

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-03-19 International Business Times

Im März 2026 bleibt der Wettbewerb zwischen Googles Gemini und OpenAIs ChatGPT ein zentrales Thema in der Künstlichen Intelligenz. Die Gemini 3-Serie hat bedeutende Fortschritte in der multimodalen Verarbeitung und faktischen Genauigkeit erzielt, während ChatGPT weiterhin in kreativen Schreibfähigke

Hancom Tops Open-Source PDF Benchmarks with OpenDataLoader PDF v2.0

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-03-13 Prnewswire

Hancom hat mit der Einführung von OpenDataLoader PDF v2.0 in internen Tests die Benchmark-Werte für Open-Source-PDF-Tools übertroffen. Besonders hervorzuheben sind die Verbesserungen in den Bereichen Lesereihenfolge, Tabellenerkennung und Überschriftinferenz. Die Software nutzt eine hybride Extrakti

Clarins unveils the AI Shade Finder, the most precise ever foundation matcher

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-02-20 Prnewswire

Clarins hat den AI Shade Finder vorgestellt, einen innovativen, KI-gestützten Service zur präzisen Farbanpassung von Make-up, der in den eigenen Boutiquen angeboten wird. Entwickelt in Zusammenarbeit mit IlluminateAI, analysiert diese Technologie innerhalb von 60 Sekunden die individuelle Hautfarbe

Un nouveau rapport de BrowserStack révèle que 94 % des équipes utilisent l'IA dans les tests, mais que seules 12 % ont atteint une autonomie complète

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-02-11 Prnewswire

Un rapport récent de BrowserStack indique que 94 % des équipes de tests logiciels utilisent l'intelligence artificielle (IA), mais seulement 12 % ont atteint une autonomie complète dans son intégration. Les principaux défis rencontrés incluent des problèmes d'intégration, cités par 37 % des équipes

AI is misidentifying body parts and creating more risks after being integrated into surgeries, reports reveal

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-02-09 The Independent

Die Integration von Künstlicher Intelligenz (KI) in medizinische Geräte hat zu einer alarmierenden Zunahme von Fehlfunktionen und Verletzungen geführt. Seit der Einführung des KI-gestützten TruDi Navigationssystems von Johnson & Johnson im Jahr 2021 hat die FDA über 100 Fehlfunktionen und mindestens

What the Claude Opus 4.6 Benchmarks Won’t Tell You

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-02-07 Towards AI

Der Artikel "What the Claude Opus 4.6 Benchmarks Won’t Tell You" beleuchtet die Grenzen und Herausforderungen von Benchmark-Tests für KI-Modelle, insbesondere im Kontext des Claude Opus 4.6. Während Benchmarks nützliche Leistungsindikatoren bieten, können sie oft nicht die gesamte Bandbreite der Fäh

My Honest Review of Claude Opus 4.6: Is It Worth the Hype?

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-02-06 Analyticsvidhya

In der Rezension zu Claude Opus 4.6, dem neuesten Modell von Anthropic, wird dessen herausragende Leistungsfähigkeit im Codieren und logischen Denken hervorgehoben. Das Modell ist speziell für komplexe Aufgaben konzipiert, die präzise Planung und Kontextbeibehaltung erfordern. Es wird über ein koste

7 Essential Types of LLM Benchmarking Every AI Developer Must Know

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Halluzinations-Tests 2026-02-02 Towards AI

Der Artikel "7 Essential Types of LLM Benchmarking Every AI Developer Must Know" beleuchtet die verschiedenen Arten von Benchmarking, die für Entwickler von großen Sprachmodellen (LLMs) entscheidend sind. Er beschreibt, wie diese Benchmarks dazu beitragen, die Leistung, Effizienz und Robustheit von

Suchergebnisse