工作動態(tài)
當前預訓練大語言模型的蓬勃發(fā)展為面向科學文獻的領域NLP(Natural Language Processing ,?NLP)任務帶來了新的前景。我中心大數(shù)據(jù)部與國家納米科學中心合作,構建了大模型增強的電催化還原和合成過程的開源數(shù)據(jù)集,幫助催化領域科學家快速發(fā)現(xiàn)新型高效催化劑并完成制備,同時發(fā)布了基于電催化領域文獻預訓練和標注數(shù)據(jù)指令微調(diào)后的大模型參數(shù),為催化材料領域的其他生成式任務提供模型支持。該研究成果在Nature數(shù)據(jù)子刊Scientific?Data上發(fā)表。大數(shù)據(jù)部陳雪青、王露笛為論文共同第一作者,杜一研究員為論文共同通訊作者。
該成果得到重點研發(fā)計劃青年科學家項目“基于領域知識圖譜的光電催化材料挖掘軟件”以及國家基礎學科公共科學數(shù)據(jù)中心等項目的支持。
語料庫構建的整體框架及合成過程拆解流程
論文鏈接:
https://www.nature.com/articles/s41597-024-03180-9
數(shù)據(jù)庫鏈接:
https://doi.org/10.57760/sciencedb.13290;
https://doi.org/10.57760/sciencedb.132924;
https://doi.org/10.57760/sciencedb.13293。
責任編輯:郎楊琴
附件下載