attualita

Motori di ricerca e chatbot con AI, troppi errori secondo studio Usa

12 Ottobre 2024

I pazienti non dovrebbero fare affidamento su motori di ricerca e chatbot alimentati dall’intelligenza artificiale (Ai) per ottenere informazioni sempre accurate e sicure sui farmaci. È quanto conclude uno studio pubblicato sulla rivista BMJ Quality & Safety, che ha analizzato leggibilità, completezza e accuratezza delle risposte dei chatbot a domande sui 50 farmaci più prescritti negli Usa. La ricerca, in particolare, ha riscontrato un numero considerevole di risposte errate o potenzialmente dannose, inoltre la complessità di molte di queste potrebbe rendere difficile per i pazienti comprenderle pienamente senza un livello di istruzione universitaria.

Dall’inizio del 2023 i motori di ricerca hanno conosciuto un passo avanti significativo grazie all’introduzione di chatbot basati sull’Ai, che ha prodotto risultati migliori, risposte più complete e un’esperienza interattiva inedita. Questi chatbot possono essere addestrati su vasti insiemi di dati da tutto il web, consentendo loro di rispondere a domande su qualsiasi argomento, compresi i temi legati alla salute. Tuttavia, possono anche generare disinformazione o contenuti non sensati e dannosi.

In precedenza gli studi si erano concentrati principalmente sulle implicazioni di questi chatbot dal punto di vista degli operatori sanitari, piuttosto che su quello dei pazienti. Per colmare questa lacuna, i ricercatori hanno esplorato la leggibilità, completezza e accuratezza delle risposte dei chatbot a domande sui 50 farmaci più prescritti negli Stati Uniti nel 2020, utilizzando Bing copilot, un motore di ricerca con funzioni di chatbot basate sull’AI.

Per simulare i pazienti che consultano i chatbot per informazioni sui farmaci, i ricercatori hanno esaminato banche dati di ricerche e consultato un farmacista clinico e medici esperti di farmacologia per identificare le domande più frequenti che i pazienti rivolgono ai loro professionisti sanitari.

Il chatbot è stato interrogato con 10 domande per ciascuno dei 50 farmaci, generando in totale 500 risposte. Le domande riguardavano l’uso del farmaco, il suo funzionamento, le istruzioni per l’uso, gli effetti collaterali comuni e le controindicazioni.

La leggibilità delle risposte è stata valutata calcolando il Flesch Reading Ease Score, che stima il livello educativo necessario per comprendere un determinato testo. Un punteggio tra 0 e 30 indica che il testo è molto difficile da leggere e richiede un’istruzione a livello universitario. Un punteggio tra 91 e 100 indica un testo molto facile da leggere, adatto a undicenni.

Per valutare la completezza e l’accuratezza delle risposte, queste sono state confrontate con le informazioni presenti su un sito di riferimento aggiornato e sottoposto a revisione paritaria (drugs.com), sia per professionisti sanitari che per pazienti.

Il consenso scientifico corrente, la probabilità e l’entità di possibili danni derivanti dal seguire le raccomandazioni del chatbot sono stati valutati da sette esperti in sicurezza dei farmaci, utilizzando un sottoinsieme di 20 risposte del chatbot con bassa accuratezza o completezza o che rappresentavano un rischio per la sicurezza dei pazienti.

Il punteggio medio di leggibilità Flesch è stato di poco superiore a 37, indicando che sarebbe necessario un livello di istruzione universitario per comprendere le risposte. Anche la massima leggibilità delle risposte richiedeva comunque un livello educativo di scuola superiore.

La completezza media delle risposte del chatbot è stata del 77%, con un massimo del 100% per cinque delle dieci domande poste. La domanda con la minor completezza ha riguardato le considerazioni da tenere in mente durante l’assunzione del farmaco, con solo il 23%.

Le risposte del chatbot non hanno corrisposto ai dati di riferimento in 126 casi su 484 (26%), e sono state completamente incoerenti in 16 casi su 484 (poco più del 3%). La valutazione del sottoinsieme di 20 risposte ha rivelato che solo il 54% di esse è stato giudicato in linea con il consenso scientifico. Il 39% contraddiceva il consenso scientifico, mentre per il 6% non esisteva un consenso consolidato.

Il potenziale danno per i pazienti che seguissero i consigli del chatbot è stato valutato come altamente probabile nel 3% dei casi e moderatamente probabile nel 29%. Un terzo delle risposte (34%) è stato considerato improbabile o per nulla probabile che potesse causare danni, se seguito.

Indipendentemente dalla probabilità di danno, il 42% delle risposte del chatbot è stato considerato in grado di causare danni moderati o lievi, mentre il 22% poteva portare a morte o a gravi danni. Circa un terzo (36%) delle risposte è stato ritenuto incapace di causare alcun danno.

I ricercatori riconoscono che lo studio non ha coinvolto esperienze reali dei pazienti e che le risposte dei chatbot potrebbero variare a seconda della lingua o del paese di provenienza. «In questo studio trasversale» osservano i ricercatori «abbiamo osservato che i motori di ricerca con chatbot basati sull’AI hanno prodotto risposte complessivamente complete e accurate alle domande dei pazienti. Tuttavia, le risposte dei chatbot sono state in gran parte difficili da leggere e spesso mancavano di informazioni o presentavano inesattezze, mettendo potenzialmente a rischio la sicurezza dei pazienti e dei farmaci». Un grosso limite è l’incapacità del chatbot di comprendere l’intento sottostante alla domanda del paziente.