Штучний інтелект здобуває знання з руди статей

Алгоритм аналізу текстів зміг на основі статей з матеріалознавства вивести Періодичний закон і зробити інші наукові відкриття.


Комп'ютери в даний час можуть багато чого: моделюють складні процеси, грають у шахи на рівні гросмейстера і навіть пишуть картини і вірші, але чи можуть вони здійснювати наукові відкриття? Дослідники з Національної лабораторії Лоуренса Берклі (США) стверджують, що можуть!


У статті, опублікованій в журналі Nature, вони розповіли, що розроблений ними алгоритм без попереднього навчання матеріалознавства може відкривати нові наукові знання, скануючи текст мільйонів статей.

Одна з проблем сучасної науки - у великій кількості публікованих і вже опублікованих наукових робіт. Вчені просто завалені величезною кількістю інформації, яку вони не в змозі навіть переглянути, не кажучи вже про уважне вивчення. До того ж переважна більшість робіт публікується у вигляді тексту, який важко аналізувати і традиційним статистичним аналізом, і сучасними методами машинного навчання. Адже вся сукупність наукових видань містить масу розрізненої інформації, в тому числі цінні знання про зв'язки між елементами даних.

Дослідники зібрали 3,3 мільйона рефератів з наукових статей з матеріалознавства, опублікованих в більш ніж 1000 журналах в період між 1922 і 2018 роками, і завантажили їх в алгоритм, який назвали «Word2vec». Нічого не знаючи заздалегідь про матеріалознавство, аналізуючи лише взаємозв'язки між словами, алгоритм зміг передбачити, наприклад, відкриття нових термоелектричних матеріалів на роки вперед і запропонувати кандидатів на використання як таких. Таким чином, він може використовуватися для усунення прогалин у дослідженнях матеріалів, вказувати на недосліджені речовини, які варто вивчити.

Цікаво, що цей алгоритм самостійно відкрив періодичну таблицю елементів і кристалічну структуру металів, що свідчить про його великий потенціал. Автори роботи стверджують, що аналіз тексту наукової літератури може виявити приховані в ній знання, а також створити систему базових наукових знань.

Робота алгоритму «Word2vec» заснована на перетворенні кожного з приблизно 500 000 різних слів з рефератів на набір з 200 чисел (200-мірний вектор), що характеризує як слова пов'язані один з одним. Ці вектори можна порівнювати, віднімати, складати тощо. Як приклад наведемо ситуацію, коли подібні алгоритми навчаються на «ненаукових» даних. У цьому випадку, наприклад, вектор «король мінус королева» збігається з вектором «чоловік мінус жінка». Це показує деякі стосунки між цими поняттями, навіть якщо ми не знаємо їх значень.

Аналогічно, при навчанні «текстового» матеріалознавства алгоритм зміг зрозуміти значення наукових термінів і понять, таких, як кристалічна структура металів, ґрунтуючись просто на поєднаннях слів в рефератах і їх збігу з іншими словами. Наприклад, він виявив, що вектор «ферромагнітний - NiFe + IrMn» збігається з вектором «антиферромагнітний». Як вже сказано вище, «Word2vec» навіть зміг з'ясувати відносини між елементами в періодичній таблиці, коли вектор для кожного хімічного елемента був спроектований на два виміри.

Пошук термоелектричних матеріалів ґрунтувався на тому, що вектор для різних хімічних сполук порівнювався з вектором слова «термоелектричний». Чим вища їхня схожість, тим краще ця речовина підходить на цю роль. Кандидати в термоелектричні матеріали повинні не тільки ефективно перетворювати тепло в електрику, але і бути зроблені з матеріалів, які безпечні, поширені в природі і прості у виробництві. Перевіривши потім 10 кращих прогнозів, дослідники переконалися в правильності роботи алгоритму. Тому вони вирішили опублікувати 50 кращих термоелектричних матеріалів, передбачених алгоритмом, з метою допомогти дослідженням у цій галузі.

Крім того, дослідники перевірили алгоритм «машиною часу». Вони закладали в нього реферати тільки до певної дати, скажімо, до 2000 року, і перевіряли, чи передбачить він матеріали, реально відкриті після неї. Виявилося - пророкує!

Отже, використовуйся цей алгоритм раніше, деякі відомі зараз матеріали могли бути виявлені на багато років раніше, ніж це фактично сталося. Автори зізнаються, що результати виявилися для них дивними. Вони не очікували, що алгоритм буде володіти такими прогнозуючими властивостями.

Автори роботи опублікують також дані, необхідні іншим дослідникам для створення власних додатків, наприклад, якщо вони захочуть знайти кращий матеріал для топологічного ізолятора.

За матеріалами Національної лабораторії Лоуренса Берклі (США)

COM_SPPAGEBUILDER_NO_ITEMS_FOUND