KI Suche
Die Suche durchsucht Rubriken, Unterrubriken, Cluster, importierte Artikel, Firmen, Quellen und die wichtigsten Service-Seiten der KI-Linksammlung.
Suchergebnisse
39 Treffer für die aktuelle Abfrage.
Halluzinations-Tests
Aktuelle Links, Zusammenfassungen und Marktinformationen zu Halluzinations-Tests innerhalb von Bewertung & Benchmarks auf JetztStarten.de.
Hancom Tops Open-Source PDF Benchmarks with OpenDataLoader PDF v2.0
Hancom hat mit der Einführung von OpenDataLoader PDF v2.0 in internen Tests die Benchmark-Werte für Open-Source-PDF-Tools übertroffen. Besonders hervorzuheben sind die Verbesserungen in den Bereichen Lesereihenfolge, Tabellenerkennung und Überschriftinferenz. Die Software nutzt eine hybride Extrakti
Clarins unveils the AI Shade Finder, the most precise ever foundation matcher
Clarins hat den AI Shade Finder vorgestellt, einen innovativen, KI-gestützten Service zur präzisen Farbanpassung von Make-up, der in den eigenen Boutiquen angeboten wird. Entwickelt in Zusammenarbeit mit IlluminateAI, analysiert diese Technologie innerhalb von 60 Sekunden die individuelle Hautfarbe
Un nouveau rapport de BrowserStack révèle que 94 % des équipes utilisent l'IA dans les tests, mais que seules 12 % ont atteint une autonomie complète
Un rapport récent de BrowserStack indique que 94 % des équipes de tests logiciels utilisent l'intelligence artificielle (IA), mais seulement 12 % ont atteint une autonomie complète dans son intégration. Les principaux défis rencontrés incluent des problèmes d'intégration, cités par 37 % des équipes
AI is misidentifying body parts and creating more risks after being integrated into surgeries, reports reveal
Die Integration von Künstlicher Intelligenz (KI) in medizinische Geräte hat zu einer alarmierenden Zunahme von Fehlfunktionen und Verletzungen geführt. Seit der Einführung des KI-gestützten TruDi Navigationssystems von Johnson & Johnson im Jahr 2021 hat die FDA über 100 Fehlfunktionen und mindestens
What the Claude Opus 4.6 Benchmarks Won’t Tell You
Der Artikel "What the Claude Opus 4.6 Benchmarks Won’t Tell You" beleuchtet die Grenzen und Herausforderungen von Benchmark-Tests für KI-Modelle, insbesondere im Kontext des Claude Opus 4.6. Während Benchmarks nützliche Leistungsindikatoren bieten, können sie oft nicht die gesamte Bandbreite der Fäh
My Honest Review of Claude Opus 4.6: Is It Worth the Hype?
In der Rezension zu Claude Opus 4.6, dem neuesten Modell von Anthropic, wird dessen herausragende Leistungsfähigkeit im Codieren und logischen Denken hervorgehoben. Das Modell ist speziell für komplexe Aufgaben konzipiert, die präzise Planung und Kontextbeibehaltung erfordern. Es wird über ein koste
7 Essential Types of LLM Benchmarking Every AI Developer Must Know
Der Artikel "7 Essential Types of LLM Benchmarking Every AI Developer Must Know" beleuchtet die verschiedenen Arten von Benchmarking, die für Entwickler von großen Sprachmodellen (LLMs) entscheidend sind. Er beschreibt, wie diese Benchmarks dazu beitragen, die Leistung, Effizienz und Robustheit von
AI is failing 'Humanity's Last Exam'—so what does that mean for machine intelligence?
Der Artikel "AI is failing 'Humanity's Last Exam'" beleuchtet die Einführung eines neuen Benchmarks, der die Grenzen der Fähigkeiten aktueller KI-Systeme testen soll. Der "Humanity's Last Exam" umfasst 2.500 Fragen aus verschiedenen akademischen Disziplinen und wurde von nahezu 1.000 Experten entwic
Researchers tested AI against 100,000 humans on creativity
In einer umfassenden Studie wurden über 100.000 Menschen mit fortschrittlichen KI-Systemen hinsichtlich ihrer Kreativität verglichen. Die Ergebnisse zeigen, dass generative KI, insbesondere Modelle wie GPT-4, in bestimmten Tests die durchschnittliche menschliche Kreativität übertreffen kann, insbeso
The 7 Essential Types of LLM Benchmarking: A Complete Guide to Evaluating AI Language Models
In "The 7 Essential Types of LLM Benchmarking: A Complete Guide to Evaluating AI Language Models" werden die grundlegenden Methoden zur Bewertung von Sprachmodellen (LLMs) vorgestellt. Der Artikel beschreibt sieben wesentliche Benchmarking-Typen, die für die umfassende Analyse der Leistungsfähigkeit
Dream Companion Unveils Groundbreaking Advancements in AI Girlfriend Applications with Personalization and Context Awareness
Dream Companion hat innovative Fortschritte in der Entwicklung von AI-Girlfriend-Anwendungen präsentiert, die durch verbesserte Anpassungsfähigkeit und Kontextbewusstsein gekennzeichnet sind. Die neuen Funktionen ermöglichen personalisierte Gespräche, die sich im Laufe der Zeit entwickeln und auf fr
Benchmark für Künstliche Intelligenz: Wie bewertet man eigentlich ChatGPT und Co.? – Quiz
Der Artikel „Benchmark für Künstliche Intelligenz: Wie bewertet man eigentlich ChatGPT und Co.?“ beleuchtet die Herausforderungen und Methoden zur Bewertung von KI-Modellen wie ChatGPT. Er erklärt, dass die Bewertung häufig durch spezifische Benchmarks erfolgt, die verschiedene Aufgaben und Tests um
Benchmarking framework reveals major safety risks of using AI in lab experiments
Eine neue Studie hat gezeigt, dass KI-Modelle, obwohl sie in bestimmten wissenschaftlichen Bereichen nützlich sind, erhebliche Sicherheitsrisiken bei Laborexperimenten darstellen. Die Forscher entwickelten ein Benchmarking-Framework namens "LabSafety Bench", um die Fähigkeit von großen Sprachmodelle
OpenAI’s o3 scored 87.5% On The Hardest AI Test Ever. Here’s Why That Number Means Almost Nothing.
Der Artikel diskutiert die beeindruckende Leistung von OpenAI's o3, das 87,5 % in einem als extrem schwierig geltenden KI-Test erzielte. Trotz dieser hohen Punktzahl wird argumentiert, dass die Zahl wenig aussagekräftig ist. Der Autor hebt hervor, dass solche Tests oft nicht die tatsächlichen Fähigk
Why Most AI Features Fail After Launch (And How PMs Can Prevent It)
In dem Artikel "Why Most AI Features Fail After Launch (And How PMs Can Prevent It)" wird erläutert, dass viele KI-Funktionen nach ihrer Einführung scheitern, weil sie nicht den Bedürfnissen der Nutzer entsprechen oder unzureichend getestet wurden. Produktmanager (PMs) spielen eine entscheidende Rol
Back in time: Should we trust AI browsing tools?
Im Dezember 2025 wurde ChatGPT Atlas als der unsicherste Webbrowser identifiziert, nachdem eine Studie von Digitain die Sicherheitsmerkmale von dreizehn beliebten Browsern analysierte. Der Browser versagte in Tests zur staatlichen Partitionierung und konnte Nutzer nicht vor Verfolgung durch Websites
The Truth About LLM Evals: Why Your AI Model Might Be Better (or Worse) Than You Think
Der Artikel "The Truth About LLM Evals: Why Your AI Model Might Be Better (or Worse) Than You Think" beleuchtet die Herausforderungen und Fallstricke bei der Bewertung von großen Sprachmodellen (LLMs). Er argumentiert, dass viele gängige Evaluationsmethoden nicht die tatsächliche Leistungsfähigkeit
TAI #184: Gemini 3 Flash is 3x Faster and 4x Cheaper than Pro and even wins on some benchmarks
In der Episode TAI #184 wird das neue Gemini 3 Flash vorgestellt, das sich durch eine dreimal schnellere Leistung und eine viermal günstigere Preisgestaltung im Vergleich zur Pro-Version auszeichnet. Die Hosts diskutieren die beeindruckenden Benchmark-Ergebnisse, die zeigen, dass Gemini 3 Flash in b
‘AI advisor’ keeps scientists in the loop while supercharging self-driving lab results
Forscher haben ein innovatives Modell eines "AI Advisors" entwickelt, das die Zusammenarbeit zwischen Mensch und Maschine in autonomen Laboren fördert und die Ergebnisse erheblich verbessert. Anstatt die Kontrolle über Experimente zu übernehmen, analysiert das System kontinuierlich die Resultate und
Gemini 3 Flash is Here for Superfast AI Performace
Gemini 3 Flash, das neueste KI-Modell von Google, revolutioniert die Vorstellung von Geschwindigkeit in intelligenten Systemen. Es wurde entwickelt, um in Echtzeitanwendungen wie Chats, Suchanfragen und Programmierung blitzschnell zu arbeiten, ohne Verzögerungen. Das Modell unterstützt Text, Bilder
Gemini 3 Flash arrives as Google’s fastest AI yet, now default across Search and apps
Google hat mit Gemini 3 Flash ein neues KI-Modell vorgestellt, das als das schnellste und effizienteste der Firma gilt und nun als Standard in Suchanfragen und Apps eingesetzt wird. Es ersetzt das vorherige Modell Gemini 2.5 Flash und bietet signifikante Verbesserungen in den Bereichen Wissen, Multi
AI models score off the charts on psychiatric tests when researchers treat them as therapy patients
Forscher der Universität Luxemburg haben Sprachmodelle wie ChatGPT und Gemini als Psychotherapie-Patienten behandelt, was zu überraschenden und besorgniserregenden Ergebnissen führte. Im Rahmen des PsAIch-Protokolls wurden die Modelle mit standardisierten Therapiefragen und psychometrischen Tests ko
How to Build a RAG Application with AutoRAG?
Die Retrieval-Augmented Generation (RAG) ist eine innovative Methode zur Entwicklung von KI-Anwendungen, die externe Daten nutzen, um die Genauigkeit zu erhöhen und Halluzinationen zu minimieren. Das neue Framework AutoRAG automatisiert den Entwicklungsprozess und ermöglicht es Entwicklern, verschie
GPT-5.2 Scores 100%. Users Say It’s Worse. Here’s Every Feature and Why.
In dem Artikel wird die neueste Version des KI-Modells GPT-5.2 vorgestellt, das in Tests eine perfekte Punktzahl von 100% erzielt hat. Trotz dieser beeindruckenden Bewertung äußern viele Nutzer Unzufriedenheit und kritisieren, dass die neue Version in der Praxis schlechter abschneidet als ihre Vorgä
US engineers design AI bionic hand that grips with human-like precision
Ingenieure der Universität Utah haben eine innovative bionische Hand entwickelt, die durch Druck- und Näherungssensoren sowie KI-gesteuerte Fingergelenkkontrolle eine menschlich präzise Handhabung ermöglicht. Diese Technologie erleichtert es Nutzern, alltägliche Aufgaben wie das Aufheben kleiner Geg
A new AI benchmark tests whether chatbots protect human wellbeing
Der neue Benchmark HumaneBench wurde entwickelt, um zu testen, ob KI-Chatbots das Wohlbefinden der Nutzer priorisieren oder lediglich Engagement maximieren. Angesichts der Verbindung zwischen Chatbots und psychischen Gesundheitsrisiken für Vielnutzer bewertet HumaneBench 15 beliebte KI-Modelle anhan
KI erkennt seltene Krankheiten
Das neu entwickelte KI-Modell „popEVE“ hat das Potenzial, schädliche Mutationen in menschlichen Proteinen zu identifizieren und deren Krankheitsrisiko zu bewerten. Es nutzt eine umfangreiche Datenbasis, die genetische Variationen von Hunderttausenden Arten und Menschen umfasst, um kritische von tole
Smart Bandage Leverages AI Model For Healing Purposes
Forscher der UC Santa Cruz haben ein innovatives AI-gestütztes Smart-Bandage-System namens a-Heal entwickelt, das in bestehende kommerzielle Verbände integriert werden kann. Ausgestattet mit einer kleinen Kamera, nimmt das Gerät alle zwei Stunden Bilder der Wunde auf und lädt diese drahtlos hoch. Ei
AI is actually bad at math, ORCA shows
Die Untersuchung des ORCA-Benchmarks hat ergeben, dass führende KI-Modelle wie ChatGPT-5 und Gemini 2.5 Flash in mathematischen Aufgaben erheblich versagen. Trotz hoher Punktzahlen in anderen Tests wie GSM8K und MATH-500, die oft nicht wissenschaftlich fundiert sind, erzielten diese Modelle im ORCA-
5 Surprising Ways Today's AI Fails to Actually "Think"
Die fortschrittlichen Sprachmodelle (LLMs) zeigen zwar beeindruckende Leistungen, offenbaren jedoch grundlegende Mängel, die die Kluft zwischen ihrer Performance und echtem menschlichem Verständnis verdeutlichen. Eine Studie von Apple Research zeigt, dass LLMs bei komplexen Problemen nicht wirklich
AI benchmarks are a bad joke – and LLM makers are the ones laughing
Eine Studie des Oxford Internet Institute und weiterer Institutionen hat ergeben, dass lediglich 16 Prozent der 445 untersuchten Benchmarks für natürliche Sprachverarbeitung und maschinelles Lernen strengen wissenschaftlichen Standards entsprechen. Viele dieser Benchmarks messen vage Konzepte wie De
Die Hilflosigkeit der Helfer
In "Die Hilflosigkeit der Helfer" äußert Kim Kardashian ihre Unzufriedenheit mit dem KI-Chatbot ChatGPT, den sie für ihre Misserfolge bei juristischen Prüfungen verantwortlich macht. Sie berichtet von fehlerhaften Antworten, die zu ihrem ständigen Durchfallen bei Tests führten. Diese Erfahrung verde
Korean AI fire system passes sea trials
Südkorea hat ein innovatives KI-gestütztes autonomes Brandschutzsystem für Schiffe entwickelt, das erfolgreich in realen Seebedingungen getestet wurde. Unter der Leitung von Dr. Hyuk Lee vom Korea Institute of Machinery and Materials kann das System Ölbrände an Bord von Marineschiffen ohne menschlic
Anthropics KI-Chatbot Claude hat so etwas wie Selbstreflexion – zumindest manchmal
Anthropic hat bei seinem KI-Chatbot Claude untersucht, ob dieser in der Lage ist, Selbstreflexion zu zeigen, also zu verstehen, was in seinem "Gehirn" vor sich geht. Die Entwickler fanden heraus, dass Claude in etwa einem von fünf Fällen tatsächlich Selbstreflexion demonstrieren kann. Diese Erkenntn
Kim Kardashian gibt ChatGPT die Schuld dafür, bei Jura-Prüfungen durchgefallen zu sein
Kim Kardashian hat in einem Gespräch mit Teyana Taylor offenbart, dass sie ChatGPT für ihr Versagen bei mehreren Jura-Prüfungen verantwortlich macht. Sie nutzt die KI-Plattform für rechtliche Ratschläge, was jedoch zu Schwierigkeiten bei den Tests führte. Kardashian beschreibt ihre Beziehung zur KI
Theia AI by Eclipse Foundation Wins 2025 CODiE Award
Theia AI, ein Produkt der Eclipse Foundation, wurde mit dem CODiE Award 2025 für das beste Open Source Entwicklungstool ausgezeichnet. Diese prestigeträchtige Auszeichnung würdigt Innovation und Exzellenz im Technologiebereich und basiert auf einer gründlichen Bewertung durch Experten und Branchenko
AIKO's Advanced Shading Technology Explained
AIKO hat sich mit seiner NeoStar-3-Reihe an die Spitze der Solarinnovationen gesetzt, indem es Rekorde in Leistung und Effizienz aufgestellt hat. Besonders hervorzuheben ist die Zell-level-Shade-Mitigation-Technologie, auch bekannt als "Shadeproof"-Solar. Diese Technologie ermöglicht es, den Energie
Fin de l’USAID : au Kenya, les patients séropositifs réclament la prise en charge de leurs soins
Die drastische Kürzung der US-amerikanischen Mittel zur Bekämpfung von HIV/AIDS, insbesondere durch das Ende von USAID, hat im Kenia zu einer Gesundheitskrise für HIV-positive Menschen geführt. Während Antiretrovirale weiterhin verfügbar sind, sind essentielle Dienstleistungen wie Tests und Infektio