倍可親

回復: 1
列印 上一主題 下一主題

在海量數據中尋找未知(下)

[複製鏈接]

1萬

主題

3萬

帖子

6萬

積分

貝殼光輝歲月

倍可親決策會員(19級)

Rank: 6Rank: 6

積分
60345
跳轉到指定樓層
樓主
新鮮人 發表於 2018-10-5 11:39 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
  2018-10-05 07:04開發/計算機/宇宙

  周一·最新發現| 周二·牧夫專欄

  周三·太空探索 | 周四·觀測指南

  周五·深空探測| 周六·茶餘星話 | 周日·天文周曆

  原文:http://www.astronomy.com/magazin ... nown-in-cosmic-data

  翻譯:汪榮鑫

  校對:陳艷玲、陸寅楓

  本公眾號系網易新聞·網易號「各有態度」簽約賬號

  1

  公眾天文學

  天文學家已經確定,我們銀河系中存在多達4000億顆恆星,而可觀測宇宙中可能存在數千億個星系。而且,在新的大規模調查的幫助下,這些數字可能會繼續增長。得益於計算機,科學家們不再需要在攝影板上人工點數,但龐大的數據依舊超出了科學家的處理能力。

  公眾對科學方面的幫助可以追溯到一個多世紀以前,整個北美地區的鳥類觀察者追蹤鳥類的遷徙模式並將結果進行匯總。但直到網際網路和網路遊戲文化興起,公民科學項目才真正走上快車道。公眾科學的核心思想很簡單:以有趣,類似遊戲的方式讓公眾識別簡單的物體或圖案,吸引公眾。通過公眾科學,現在更多科學愛好者在閑暇時進行分析工作,這些工作量通常需要科學家花費數月。

  

  2014年,NASA發布了標誌性的哈勃超深場圖像的更新版本。原版使用可見光和近紅外光放大了南半球一小部分明顯空曠的天空。對於2014年的哈勃超深空場,天文學家收集並納入了紫外線數據,這有助於揭示宇宙中最年輕,最大,最熱的恆星。

  NASA, ESA, H. Teplitz and M. Rafelski (IPAC/Caltech), A. Koekemoer and Z. Levay (STScI), R. Windhorst (亞利桑那州立大學)

  NASA艾美斯研究中心(NASA』s Ames Research Center.)的一個科學家團隊是數據處理獲得公眾幫助的首批團體之一。該團隊開發了ClickWorkers在線網站,處理的是20世紀70年代發送到火星的維京號軌道衛星收集的數據。從2000年開始,公眾可以識別和標註火星表面的隕石坑。初步結果顯示公眾都熱情並準確地完成了任務。不久之後,該公眾科學項目得到了擴展。

  「大多數公民參加是因為他們希望成為研究的一部分,」明尼蘇達大學的天體物理學家Lucy Fortson說道,他曾在公眾科學項目中廣泛開展工作。「他們希望用額外的時間做一些有意義的事情。」

  今天,天文學中有許多公眾科學項目,例如宇宙之問(CosmoQuest),銀河項目(Milky Way Project),還有也許最著名的是星系動物園(Galaxy Zoo)。在星系動物園,公眾被要求確定所顯示的星系類型:它是盤狀的嗎?是側立的嗎?中央凸起嗎?這些特徵可以通過眼睛快速識別,但其中的圖像差異是計算機難以識別和分類的。

  「人類實際上天生適合在大量的圖像數據中得到偶然發現,」Fortson說。「憑藉進化的優勢,人類已經開發出這種驚人的視覺皮層,可以從未知中區分未知和已知。」

  當然,使用未受過訓練的公眾並非沒有挑戰。人都會犯錯誤。幸運的是,參與識別的大量人員可產生平均值和群體共識用於判斷,從長遠來看,這可能比單個科學家的身份更準確。在星系動物園,40個不同的人檢查每個星系,以創建一個可信賴的識別。通過仔細處理結果,個人可以根據他們的識別成功率進行不同的加權。通過這種方式,識別通常不符合群體共識的人可以被標記,使他們不會搞砸最終結果。

  2

  機器的崛起

  群眾識別並分類了數千張圖像后,仍需要進行大量工作來分析數據。這就是計算機大顯身手的地方。這些機器是體力勞動者,允許進行人腦望塵莫及的複雜的計算和比較。儘管過去計算機只能完全按照它們所說的去做,但是現在一部分計算機正在被教導自主學習。

  天文學家正在使用一種稱為機器學習的人工智慧來讓計算機自學如何在數據中找到規律。基於大腦如何運作,天文學家設計了一種稱為人工神經網路的特定機器學習方法。正如人類大腦一樣,這些神經網路在龐大的數據網路中建立聯繫。為了創建這些網路,科學家首先向計算機展示一個「訓練集」,這是一系列包含計算機所需內容的例子 - 例如旋渦星系。隨著時間的推移,積累足夠的例子后,計算機將輕易識別旋渦星系,儘管它們的外觀可能千變萬化。

  機器也可以被教導一項更加困難的任務:評估物體及其特徵如何相互關聯。例如,科學家們已經使用人工神經網路來研究星系如何形成星團以及該星系如何影響星系產生的恆星數量。只有在計算機的幫助下,科學家才能比較許多有意義的物理特性,例如星系質量,星系之間的距離以及星系之間的相互作用。通過比較數十萬個星系,科學家能夠對我們的宇宙做出普適的結論,這些結論不受小擾動的影響。

  如果編碼得當,人工神經網路可以為科學家提供深刻見解; 但是,它們也很容易被濫用。例如,如果訓練集不夠廣泛,計算機將得出錯誤的結論。

  人工神經網路的另一個缺點是它們需要大量的數據集來「學習」。幸運的是,在大規模調查的時代,大量數據集很常見。這意味著人工神經網路可以迅速將海量數據的問題轉化為優勢。公眾可以幫助提供訓練集,訓練集越大,結果越好。

  

  星系、星系團以及星系群和暗物質一起構成了一個廣大的,像蛛網一樣的結構,叫做宇宙網。這張圖顯示的只是宇宙網的一小片。在人工神經網路演演算法的幫助下,天文學家希望用這種模擬進行以前所未有的精度研究宇宙網。

  NASA,ESA,AND E.HALLMAN(UNIVERSITY OF COLORADO BOULDER)



知之為知之,不知為不知,是知也

海納百川,  有容乃大

1萬

主題

3萬

帖子

6萬

積分

貝殼光輝歲月

倍可親決策會員(19級)

Rank: 6Rank: 6

積分
60345
沙發
 樓主| 新鮮人 發表於 2018-10-5 11:39 | 只看該作者
  3

  充滿驚喜的未來

  「我們收集這些龐大數據集的能力正在與我們解釋這些龐大數據集的能力同步發展,」Ivezić說。「兩個方向都很重要——收集數據的人和開發分析和解釋工具的人。否則,我們只會被一大堆我們無法理解的數據困住。「

  隨著大尺度巡天開展,公眾科學和機器學習技術的結合,看來將會出現許多新的意外發現。但這些發現的原理仍需要經過很多年才能解釋。

  

  圖片來源:佚名

  謝謝閱讀
知之為知之,不知為不知,是知也

海納百川,  有容乃大
回復 支持 反對

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-8-28 09:44

快速回復 返回頂部 返回列表