Насколько точен ChatGPT?

Многие люди, проводящие время в Интернете, слышали о ChatGPT. Пользователи могут вводить подсказки в систему и получать ответы практически мгновенно, хотя точность этих ответов может быть различной (Ramponi, 2022). Но имеет ли ChatGPT возможность знать или хотя бы оценить вероятную точность своего ответа? А если нет, то делает ли это ChatGPT таким же экспертом по вранью, как и экспертом по кураторству информации?

Чтобы изучить эти вопросы, сначала стоит определить, что я имею в виду под «ахинеей»

Хотя мы часто используем термин «чушь собачья» для обозначения разных вещей, Франкфурт (2005) утверждает, что чушь собачья подразумевает отсутствие уважения к истине, что отличает ее от лжи (т.е. когда кто-то знает правду, но намеренно искажает ее). По сути, «быдло» — это человек, который делится информацией, не заботясь о точности того, что он сообщает. Франкфурт (2005) далее утверждает, что:

Фигня неизбежна всякий раз, когда обстоятельства требуют, чтобы кто-то говорил, не зная, о чем он говорит. Таким образом, производство бреда стимулируется всякий раз, когда обязательства или возможности человека говорить на какую-то тему более чрезмерны, чем его знание фактов, относящихся к этой теме. (p. 19)

Таким образом, человек, говорящий чушь, может приводить, казалось бы, связные аргументы, но эти аргументы не обязательно связаны с реальными фактами. Другими словами, «быдло» говорит (или пишет), мало заботясь о том, насколько точной является информация. Итак, вопрос заключается в том, насколько ChatGPT осведомлен о точности информации, которой он делится, по сравнению с быдлом.

В недавнем разговоре с ChatGPT Чаморро-Премузик (2023) сообщила, что в ответ на вопрос о том, хотел бы ChatGPT выполнять человекоподобные действия, например, рыгать, ИИ ответил, что его «способности ограничены обработкой данных и предоставлением ответов на ввод пользователя». Таким образом, ChatGPT ограничен в обмене информацией, которую он может собрать из различных источников, к которым у него есть доступ. Это означает, что он не может предлагать умозаключения, доказательства или утверждения, которые выходят за рамки его базы знаний.

Но это не значит, что он не способен нести чушь.

ChatGPT более ограничен, чем человек, потому что он не может просто выдумать что-то (т.е. у него должны быть данные, из которых он может черпать свои ответы), в то время как человек не гарантированно обладает таким ограничением. Однако неспособность выдумывать не означает, что ChatGPT осознает точность предоставляемой информации.

Вместо этого Бендер и Шах (2022) назвали ChatGPT и другие большие языковые модели не более чем стохастическими попугаями, что означает, что у них «нет ни понимания того, что они производят, ни коммуникативного намерения, ни модели мира, ни способности отвечать за истинность того, что они говорят» (параграф 3). Итак, в двух словах, системы искусственного интеллекта, подобные ChatGPT, лучше всего описать как более ограниченные быдлокодеры.

Мы можем представить ChatGPT как доступ к очень, очень большой коробке Лего; у него есть доступ к миллионам Лего всех разных форм и размеров. Он может собирать эти лего различными способами, основываясь на данных, полученных от пользователя. В соответствии с метафорой «Лего», ChatGPT был обучен с использованием обширного набора инструкций по сборке.

Поэтому, когда пользователь вводит запрос, ChatGPT предсказывает, основываясь на инструкциях, на которых он был обучен, как собрать лего вместе таким образом, чтобы получить то, что ищет пользователь (например, построить замок или лодку). До тех пор, пока он может с некоторой степенью точности предсказать, какие лего нужно собрать, и какими способами, он, вероятно, будет выдавать то, что кажется последовательным ответом. Но на самом деле он ничего не знает и не думает, прежде чем ответить.

Поэтому, хотя он и может дать последовательный ответ, последовательность не является синонимом точности.

Многие люди, которые несут чушь, сами прекрасно умеют приводить связные аргументы, которые для неспециалиста звучат вполне правдоподобно, но часто оказываются полностью выдуманными. То, что ответ связный и звучит правдоподобно, не делает его точным. На самом деле, хороший «бычара» знает, как создавать ответы, которые звучат как образованные, не зная, насколько они точны. И хотя эксперты в данной области могут оценить достоверность утверждений, сделанных людьми, которые несут чушь, широкая публика часто не в состоянии этого сделать, особенно если тема более сложная (или кажущаяся таковой, как в случае с псевдонаучной чушью) или эзотерическая.

И с ChatGPT дело обстоит не иначе. Если пользователь не запрашивает тему, на которую ChatGPT не может дать связный ответ (ответ явно бессвязный или непонятный), пользователь, не обладающий знаниями в данной области, не имеет возможности узнать, насколько точным является ответ.

ChatGPT также в значительной степени не способен предложить действительно обоснованную оценку веса доказательств, подтверждающих противоречивые выводы (за исключением аргументов, в которых существует достаточный консенсус, например, теория плоской Земли), что означает, что пользователь, скорее всего, получит что-то похожее на ответ с обеих сторон или желаемое (как, например, ответ на вопрос Chamorro-Premuzic о том, были ли Сталин, Гитлер или Мао способны принимать этические решения).

В качестве другого примера я решил спросить ChatGPT о ГМО-продуктах. На вопрос о силе доказательств, подтверждающих безопасность продуктов с ГМО, ChatGPT ответил, что «доказательства, подтверждающие безопасность генетически модифицированных организмов (ГМО) и продуктов, полученных из ГМО, сильны и последовательны». Но на вопрос о том, безопасны ли продукты с ГМО, компания заявила, что «Безопасность генетически модифицированных организмов (ГМО) и продуктов, полученных из ГМО, является предметом постоянных дебатов и научных исследований». Таким образом, выводы, которые он предоставлял, варьировались в зависимости от формулировки исходных данных, даже если исходные данные были семантически схожи.

Однако большая часть текста, который ChatGPT выдал в поддержку этих различных выводов, была абсолютно одинаковой, независимо от того, какой из двух входных данных был введен, причем текст в поддержку первого вывода был более согласован (т.е. индуктивно более силен), чем второй. Таким образом, возможно, что способ формулировки концептуально схожих проблем действительно влияет на выводы, сделанные ИИ (это было бы интересным направлением будущих исследований).

Из всего этого я могу сделать только один разумный вывод: ChatGPT не (1) знает о точности своих собственных выводов или силе аргументов, на которые опираются эти выводы, и (2) не вынужден или не обязан демонстрировать согласованность выводов на основе семантически схожих, но по-разному сформулированных исходных данных[1]. Поэтому я бы заключил, что, хотя ChatGPT может иметь некоторые ограничения вокруг своего бреда, он представляет собой более сложный тип бреда, и мы не должны автоматически считать его утверждения или аргументы точными. Поэтому пользователям рекомендуется помнить о предостережении Бендера и Шаха (2022), что «беглость [или связность] не влечет за собой точность, информационную ценность или надежность» (параграф 7).