Главные Новости
Владимир Зеленский Техно Кино Автоновости
Алгоритмы машинного обучения могут раскрыть скрытые научные знания с небольшим обучением
Автор: Allnewsua.live

Исследование лаборатории Беркли показывает, что анализ текста научной литературы может привести к новым открытиям.

Конечно, компьютеры могут использоваться для игры в шахматы на уровне гроссмейстера, но могут ли они делать научные открытия? Исследователи из Национальной лаборатории Лоуренса Беркли Министерства энергетики США показали, что алгоритм без обучения материальным наукам может сканировать текст миллионов статей и открывать новые научные знания.

Команда во главе с Анубхавом Джайном, ученым из отдела хранения и распределенных ресурсов лаборатории Berkeley Lab, собрала 3,3 миллиона тезисов опубликованных материалов научных работ и направила их в алгоритм под названием Word2vec. Анализируя взаимосвязи между словами, алгоритм смог предсказать открытия новых термоэлектрических материалов на годы вперед и предложить еще неизвестные материалы в качестве кандидатов на термоэлектрические материалы.

«Ничего не рассказывая о материаловедении, он изучил такие понятия, как периодическая таблица и кристаллическая структура металлов», - сказал Джейн. «Это намекало на потенциал техники. Но, наверное, самое интересное, что мы выяснили, это то, что вы можете использовать этот алгоритм для устранения пробелов в исследованиях материалов, вещей, которые люди должны изучать, но до сих пор не изучали ».

Результаты были опубликованы 3 июля в журнале Nature. Ведущим автором исследования «Необслуживаемые вложения в слова, захватывающие скрытые знания из литературы по материаловедению» является Вахе Цитоян, научный сотрудник лаборатории Беркли, в настоящее время работающий в Google. Наряду с Джейном, исследователи из лаборатории Беркли Кристин Перссон и Гербранд Седер помогли провести исследование.



«В документе установлено, что добыча текста в научной литературе может раскрыть скрытые знания, а извлечение чистого текста может создать базовые научные знания», - сказал Седер, который также назначен на факультет материаловедения и инженерии Калифорнийского университета в Беркли.

Цитоян сказал, что проект был мотивирован трудностью понимания огромного количества опубликованных исследований. «В каждой области исследований существует более 100 лет исследовательской литературы, и каждую неделю выходят десятки новых исследований», - сказал он. «Исследователь может получить доступ только к этой части. Мы подумали, может ли машинное обучение сделать что-то, чтобы использовать все эти коллективные знания неконтролируемым образом - без необходимости руководства со стороны исследователей-людей? »

Команда собрала 3,3 миллиона рефератов из статей, опубликованных в более чем 1000 журналах в период между 1922 и 2018 годами. Word2vec взял каждое из примерно 500 000 различных слов в этих аннотациях и превратил каждое в 200-мерный вектор или массив из 200 чисел.

«Важно не каждое число, а использование чисел, чтобы увидеть, как слова связаны друг с другом», - сказал Джейн, который возглавляет группу, работающую над открытием и разработкой новых материалов для энергетических применений, используя сочетание теории, вычислений и сбор данных. «Например, вы можете вычитать векторы, используя стандартную векторную математику. Другие исследователи показали, что если вы тренируете алгоритм на ненаучных текстовых источниках и берете вектор, который получается из «король минус королева», вы получите тот же результат, что и «мужчина минус женщина». Он выясняет отношения, не говоря вам ничего. »

Аналогично, при обучении текстовому материаловедению алгоритм смог понять значение научных терминов и понятий, таких как кристаллическая структура металлов, основываясь просто на положениях слов в рефератах и ​​их совпадении с другими словами. Например, точно так же, как он мог бы решить уравнение «король - королева + человек», он мог бы выяснить, что для уравнения «ферромагнитный - NiFe + IrMn» ответ будет «антиферромагнитный».



Word2vec даже смог узнать отношения между элементами в периодической таблице, когда вектор для каждого химического элемента был спроецирован на два измерения.

Так что, если Word2vec такой умный, сможет ли он предсказать новые термоэлектрические материалы? Хороший термоэлектрический материал может эффективно преобразовывать тепло в электричество и сделан из материалов, которые безопасны, распространены и просты в производстве.

Команда лаборатории Беркли взяла лучших термоэлектрических кандидатов, предложенных алгоритмом, которые оценили каждое соединение по сходству его слов-векторов со словом «термоэлектрический». Затем они провели вычисления, чтобы проверить предсказания алгоритма.

Из 10 лучших прогнозов они обнаружили, что все рассчитанные коэффициенты мощности немного выше, чем в среднем по известным термоэлектрикам; три лучших кандидата имели коэффициенты мощности выше 95-го процентиля известных термоэлектриков.

Затем они проверили, может ли алгоритм проводить эксперименты «в прошлом», предоставляя ему рефераты только, скажем, до 2000 года. Опять же, из главных прогнозов, значительное число появилось в более поздних исследованиях - в четыре раза больше, чем если бы материалы только что был выбран наугад. Например, с тех пор были обнаружены три из пяти основных прогнозов, подготовленных с использованием данных до 2008 года, а остальные два содержат редкие или токсичные элементы.

Результаты были удивительными. «Честно говоря, я не ожидал, что алгоритм будет таким предсказательным для будущих результатов», - сказал Джейн. «Я думал, что, возможно, алгоритм мог бы описывать то, что люди делали раньше, но не придумывать эти разные связи. Я был очень удивлен, когда увидел не только прогнозы, но и обоснование этих прогнозов, например, структуру полу-Гейслера, которая в наши дни является действительно горячей кристаллической структурой для термоэлектриков ».

Он добавил: «Это исследование показывает, что, если бы этот алгоритм использовался ранее, некоторые материалы могли бы быть обнаружены за много лет до этого». Наряду с этим исследователи выпускают 50 лучших термоэлектрических материалов, предсказанных алгоритмом. Они также выпустят вложения слов, необходимые людям для создания собственных приложений, если они захотят найти, скажем, лучший материал для топологического изолятора.

Далее Джейн сказал, что команда работает над более умной и мощной поисковой системой, которая позволяет исследователям более эффективно искать рефераты.

Исследование финансировалось исследовательским институтом Toyota. Другими соавторами исследования являются исследователи лаборатории Беркли Джон Дагделен, Ли Уэстон, Александр Данн и Зикин Ронг, а также исследователь Калифорнийского университета в Беркли Ольга Кононова.

Источник: Berkeley Lab, Джули Чао.

Перекладено з Technology Org.


Читать также: