英文維基百科受惠於大量美國政府釋出的資料,而能大量擴充內容,相比之下,中國或台灣的政府對於資料釋出就沒那麼慷慨,尤其是中國政府三不五時封鎖維基百科的連線。正值全球Open Data風潮,如果台灣能在這時候搭上順風車,與國際潮流接軌,不自己搞自己的閉門所謂的「Open Data」,才有可能產生新的產業,拯救台灣的就業市場。
原先想用Twitter轉播的,但是會場的無線網路怎麼連都連不上,所以只好動用原始卻可靠的紙筆來記錄了。
活動網址:http://www.iicm.org.tw/event/2012p/
▲整個資訊學會年會議程前面是頒獎典禮,有不少學生、研究人員在此刻上台領獎
▲先前只聞其名的成大教授郭耀煌,今天上台領獎
孔祥重的Big Data演講
Computing and Networking in the Era of Big Data
H. T. Ku
Harvard University
孔院士這場演講很技術,先從這幾年不斷增長的資料開始說起來,資訊人員該如何面對呢?有Scientific data、Warehouse data、Internet Data、Sensor Date、Government Data。這麼多資料類型,估計量達到2.5 exabyte。exabyte到底是多少數量級呢?10的9次方可能是一般人能念得出來的最大數量級,它叫gigabyte。而exabyte還得在gigabyte後面加上九個零,是10的18次方。這麼大量的資料,得透過分析才能產生價值,而且不能只靠人腦分析,一定得由程式幫忙處理。
With Analysis, Data Create ValuePhilip Russom曾提過資料的3 Vs
Data Volume
Data Variety
Data Velocity
最後提到機率論的貝氏定理,提醒大家做研究時,機率小時的條件機率影響很大。對於已經離統計、機率很遠的我,得花些時間回憶。
Open Data Panel
每個與談人有五分鐘的時間談他們想像的Open Data是什麼。首先是官方代表台北市政府的張家生處長開始。他談市府Open Data網站的源起:很多人投書市政信箱提到Open Data,所以就動手做了。張處長還說他們先把困難的部分做起來了。朋友們,投書政府的對外信箱是有用的,他們聽久了也會聽煩的,聽多了就知道該做什麼了。▲張家生處長
第二位是Jane張韻詩。Jane是我在中研院工作時的PI。她是資訊領域有名的人物,但在這圈子外的人很多人對她不熟。但提及她的丈夫劉炯朗,大家可能就有印象了,劉曾當過清大校長。Jane相當厲害,在她那年代女性資訊從業人員相當少,她曾在微軟工作,教了好幾年書。
Jane的專長在Real-time System,目前主持防災系統OpenISDM的建置。五分鐘的演講自然從她防災計畫的角度看Open Data。她提及政府的網站常做不好,像是無法即時取得其他人擁有的資料。她很希望能夠整合來自不同來源的資料,能夠讓獨立的軟體能夠運用。最後Jane用Tim Berners-Lee的Open Data五顆星圖,呼籲要有linked open data。
▲張韻詩老師
第三位是倚天資訊的黃杉榕董事長,倚天資訊是宏碁下面的子公司,前陣子才有相關的人事新聞出來。他沒有準備簡報,直接口頭講。他呼應Jane提及的Open Data五顆星評鑑,提到日本在災難來臨時,原本要收錢的自動販賣機,可以轉換模式,不用投錢就可以取物了。他想到Open Data能夠運用到教育上、GIS。教材取得成本很貴,隨便一本教科書就是上百塊美元了,如果能夠有Open Data釋出教材,會減輕學子負擔。他期待在推Open Data時,能讓數位公民權的落實。
▲黃杉榕董事長
▲張國鴻祕書長
第四位講者是張國鴻祕書長,代表中華民國資訊軟體協會。感覺他將Data及Open Data混在一起了,所以不是很喜歡他講的東西,他提到標案,民間如何有利基什麼的,還是從標政府案子的大公司角度出發,忽略Open Data的公民參與。另外他還提到隱私、智財,機制等名詞。
第五位是任職台科大的李漢銘老師,但他今天是用民間團體,消基會的身份。由於先前開了記者會-健保資料公開使用之爭議,他就從這隱私權的議題開始講。他舉國外保全人員的例子,他們在監視器上的人臉以及車牌都馬賽克了,只能知道有人車出入,不會像國內在監視器上知道像是總經理或什麼人出入。人家是用這種方式保護隱私權的。
李漢銘火力相當強大,還批評中華電信。提到先前做過的調查,世界各國的ISP,中華可是排在世界第二慢,世界第四貴的ISP。中華的回應也挺好玩的,指出資料有誤,沒那麼慘,但中華手上拿的是新資料,比別人前幾年的狀況還是輸,仍然很冏。左批中華,右批中研院。中研院前幾年有個BioBank計畫,將台灣人的體質資料收集起來。但是對於隱私權的保護不夠周到,後來該計畫中止了。
▲李漢銘老師
座談時間時,台下的黃彥男回應了關於Open Data的事。他說他原先只是來聽孔院士的演講,卻不小心撞到Open Data Panel。補充回應關於Open Data的議題。除了台上的人以外,台下也有不少重要人物。中研院資訊所的何建明問了關於健保資料的問題:健保產生的資料究竟是屬於誰的?如果釐清這問題,很多東西可以做了。另外隱私權除了不讓不該公開傳播的東西傳播外,還包括被收集資料的人,能夠參與資料的管理,能夠詢問管理方以什麼目的收集資料。當被收集資料的人要求刪去他的個人資料,管理方也得照做。這方面衍生的成本,也得計算上去。在場有位記者,問了沒到位的問題:問Data Center的事。
綜合評論參與者,Jane及李漢銘都相當了解Open Data,而張家生則是老王賣瓜啊。張國鴻感覺最糟了。
委託人Schee也在他社交網站上評論此次活動,提及本次座談會參與者在學術圈地位崇高,後續一定會有大事發生。除了前面座談會。除了他提及的孔祥重、張韻詩、何建明、陳銘憲、黃彥男、李漢銘,目前借調擔任中興大學校長的李德財,也有在會場中。
學術圈有動作,而且是重量級人物。至於會起什麼漣漪,還有待時間觀察。中文維基百科能否受益於Open Data帶來的資料解放,仍得努力。
沒有留言:
張貼留言