版权归原作者所有,如有侵权,请联系我们

机器学习“大海捞针”

紫金山天文台
中国科学院紫金山天文台官方账号
收藏

快速射电暴(FRB)是近年来与引力波同样热门的天文学研究对象,是一类瞬时亮度超过太阳上亿倍的超常射电爆发。它们能在比你眨眼快一百倍的时间内,完成一次极高的能量释放。

快速射电暴示意图 ▏图源:Danielle Futselaar

这种前所未有的神秘爆发,究竟来自什么样的天体?它们又是在怎样的极端环境下产生的?这激发了众多天文学家的兴趣。经过十多年研究,科学家取得了相当多的观测突破,带来了很多惊喜。但是,快速射电暴的起源和爆发机制依然是未解之谜,亟待揭晓。

“人口普查”

研究快速射电暴的手段有很多,但首先得找到它们,越多越好!快速射电暴比眨眼快百倍,所以高时间分辨率的观测是关键。澳大利亚64米口径射电望远镜帕克斯(Parkes)贡献巨大,其优势正是在于持续开展高时间分辨率的多波束巡天长达25年。国际上首个快速射电暴就是帕克斯于2007年发现的。

帕克斯望远镜远眺 ▏图源:aussietowns.com

但光有观测是不行的。由于快速射电暴距离遥远,它们传播到地球上的信号强度,比蓝牙耳机的辐射都弱很多。要想从仪器的背景噪声和人类制造的电磁干扰中把它们找出来,非常困难。这也是为什么射电观测持续了那么多年,直到2007年才首次发现快速射电暴。

那么帕克斯的历史数据中是否还有未被发现过的快速射电暴?

紫金山天文台研究人员牵头组织的一个联合研究团队决定对这些历史数据“查户口”。功夫不负有心人,果然从帕克斯1997年到2001年的数据里找到了两个新的快速射电暴,算是初战告捷。可随之而来的5.6亿个数量惊人的疑似信号怎么办?

在这些疑似信号中,掺杂着大量的噪声和人造信号。那些比较明亮的真正的快速射电暴,因为置信度高,得以优先被挑出来。但剩下的信号,按照传统的方法,只能由有经验的天文学家用肉眼来识别。即使每天能看三万张图像,要看完5.6亿个疑似信号也需要50年无休,显然是一项不可能完成的任务!

人造信号(上)和快速射电暴(下)出现在时间频率图上都是相似的明亮条纹。▏图源:作者/上;Nature/下

天文学的大数据挑战

像这样令人头疼的难题,在天文学里还不是个例。随着观测技术进步,现代天文学面临着如何处理大数据的挑战。

帕克斯1997年的记录精度还很低,但每天的观测数据仍然有10GB左右。而现在先进的射电望远镜如中国天眼(FAST),一小时的数据量就可以达到TB量级,需要高性能服务器来负责数据存储和处理。未来,随着摩尔定律失效,这似乎是一场天文学家注定要输的比赛。

天文数据处理需要的大型服务器 ▏图源:must.edu.mo

去芜存菁

不过,也并非所有的数据都足够有价值。面对大数据挑战,就需要建设一套方法,让真正有价值的数据被筛选和记录下来。

第一步,就是建立一个基于那5.6亿个疑似信号的单脉冲数据库,包括到达时间、观测参数等信息,为日后观测、比对和研究提供基础。

这个数据库就像一个待挖掘的金矿,急需一种数据分析方法从中提炼出“真金”。

机器学习

站在帕克斯单脉冲数据库这个新的起点上,下一步,是引入近年来高速发展的实现人工智能(AI)的方法——机器学习。

如今在日常生活中经常需要进行人脸识别,这其中就用到了机器学习方法。天文学家的工作就相当于要训练一个能从5亿多只的狗群里把几只猫猫挑出来的机器,只不过快速射电暴不管从形态上,还是训练样本的收集上都比猫和狗要困难。

调侃人工智能的笑话 ▏图源:hornydragon.blogspot.com

研究人员使用一种名为残差神经网络的图像识别算法,通过降采样率的方式缩小图片尺寸,同时通过对疑似信号到达时间与色散量进行筛选,从而大大降低了需要检查的图片数量。最终运用训练好的模型,从数据库里找出了81个新的快速射电暴候选体。

这81个候选体在众多特征上与之前的FRB相似。比如拥有相似的能量和暴发宽度分布,这有力地支持了它们的真实性。

同时,新发现的候选体样本相对已有的快速射电暴样本而言,在低能端的比例更高。这意味着以往的搜寻方法可能漏掉了大量低能端的事件,提醒人们更加关注对低信噪比信号的搜寻。

81个新候选体与以往快速射电暴的对比 ▏图源:作者

这一系列工作,为解决天文暂现源领域面对的大数据挑战,做了很好的尝试,也为建设中的“平方公里阵列”(SKA)提供了一种高效截取有价值数据的方案。未来,FAST和SKA都将实现更高的灵敏度,同时将带来更为惊人的数据量。它们对信号的筛选提出了极高的要求。紫金山天文台研究人员牵头组织的这一联合研究团队计划继续开发能应用到这些先进设备上的暂现源数据处理流程,发掘更多有价值的信号。

SKA想象图 ▏图源:Wikipedia

参考资料:

[1] 81 New Candidate Fast Radio Bursts in Parkes Archive. Yang et al. 2021, MNRAS stab2275

[2] Parkes Transient Events. I. Database of Single Pulses, Initial Results, and Missing Fast Radio Bursts. Zhang et al. 2020, APJS 249 14

作者简介

汤振凡

中国科学院紫金山天文台高能时域天文团组博士研究生,研究方向:射电暂现源的观测与数据处理。

张松波

中澳天文联合研究中心ACAMAR博士后,研究领域:射电暂现源的观测,数据处理与理论研究。

轮值主编:杜福君

编辑:王科超