但是,假如把母體是放在特X屋的上月發賣狀況,然後想知道上月中最暢銷商品間的關係,若是我們礙於資料的獲得本錢,是抽樣的取幾家分店的發賣資料;跟使用公司資料庫內寄存所有分店的上月所有完全發賣明細資料,那在學理與方式上就應當有些不同。統計上需先假定或預設一些情境或認知,比如要抽取那幾家分店,那負責的人員可能會基於本身的經驗與常識,選擇以往月營收為全分店平均值的店面;但是資料探勘就沒有這個問題,橫豎我是處理所有分店的資料翻譯假如在此情況下,有人用資料探勘出的趨向或法則,再佐以統計去驗證,那就好像都知道
是以肥蝦把統計跟資料探勘看成是,統計是先認知出特定例則再進行驗證;資料探勘是先找出所有可能,再行便可能中認知出法則。那至於是統計好,或是資料探勘好?那照樣取決於本錢!你所要瞭解表象背後事實可能的效益與找出這事實可能成本間的對照!那為何是事實可能呢?因為不論是統計或是資料探勘,在絕大多數的環境下,照舊若幹有一點認知跟主觀的問題,除上帝以外沒人知道表象後的真正事實!而今在量子力學的架構中,可能天主也沒法事前確知事實的結果了。
【數學傳播季刊】統計思惟乙文的作者為黃文璋教授,任教於高雄大學運用數學系,是一個名譽卓越、著作等身的統計專家。該文除具體說明統計的觀念以外,對於一些主要的概念更是旁徵博引一些文學典故,一文讀來有讓人不忍釋手之快翻譯文章一開頭就援用了馬克吐溫的名言:「There are three kinds of lies: lies翻譯社 damned lies, and statistics.」(有三種類型的假話:謠言、可惡的謠言跟統計。)文中也說明統計能到達的感化:(1)在許可誤差下的機率包管。(2)許可誤差下的無罪推定。因此機率跟誤差是為統計學裏的兩大支柱,黃傳授並按照統計學的六項要點─善用資訊、了解變異、相信機率、公道估量、無罪推定、空言無補─一一說明翻譯本文可說是字字珠璣,要肥蝦寫出心得,真得就只能把文章照抄一遍了!
由於資料探勘與統計在某些方式或名詞上非常接近,乃至相同,是以常讓人容意混淆。好比,維基百科上說的資料探勘一般包羅四項工作:Clustering(叢集),Classification(分類),Regression(迴歸),Associationrule learning(聯系關系)這四者在推論統計中也是常見的名詞;更甚者,在一些統計概念的介紹資猜中也把資料探勘置於統計學範疇範疇之內。
昨天在床上看論文第二章文獻切磋要用的英文期刊,一時煩悶下就拿了本【科學人雜誌(第105期)】來看!個中有一篇短文「失之毫釐,差以千里」,講得是統計抽樣誤差的問題,內容是說美國在查詢拜訪軍中同性戀的比例,是以進行軍中同性戀的查詢拜訪翻譯這直覺看起來彷佛沒有問題,可是卻會致使環境為真(異性戀)但被誤認為假(同性戀)的型一誤大於情況為假(同性戀)但被誤認為真(異性戀)的型二誤高的統計問題,就是所謂的非對稱性族群數量,或稱類別資料不屈衡(class-imbalanced)的問題。一時之間倏忽想到曾在第132號數學傳播季刊看到的一篇統計思惟文章,以及同窗在上資料探勘之時常會扣問的問題-「統計跟資料探勘差在哪裡?」
肥蝦不是一個專業的統計學家或專研資料探勘的學者,因此一些設法並不必然正確,但寫此文的目標只想拋磚引玉,趁便也能確認自己的思惟與認知是否准確!
在修讀肥蝦的指點教員劉育津傳授的資料探勘的教室上,教員也引了Berry and Linoff於1997年所著的【DataMining Techniques: for Marketing, Sales, and Customer Support】的文句,渠等認為一般剖析陳訴是提供了「後見之明」(hindsight),統計闡明提拱了「先機」(foresight),而資料探勘則供給了「洞察力」(insight) ,也就是資料探勘能看到事宜中所潛藏的訊息。但在經濟新潮社出版李弘元師長教師所翻譯日本岡嶋裕史所著的【從資猜中挖金礦】一書中對於統計與資料探勘有一段概略劃分的申明:「統計闡發的學問體系是在資料本錢很高的時期被建立的翻譯那是一種測驗考試以起碼的資料量,來索求世界的學問系統。反觀在資訊爆炸的現在,資訊廉價且唾手可得。以往不克不及或沒法看成闡發對象的資料都變得可以處理,也就是擴大了可處置對象的範圍,同時,剖析的深度也得以增添翻譯」因此「資料探勘的素質不在於技巧的翻新,而在於準備資料的質與量上。」
就以上的見解,肥蝦以為,兩者的重點在於因為資料的起原與數目,因此有著理論上的差距翻譯想一想現在正在進行的生齒普查,如果是普查取得的現實資料,那就不用在基於受限於資料源,而應用機率與假設,進行統計的抽樣。是以資料量與代表性就是兩者學門間的差別所在。但在這要澄清的一點是,假如華頓翻譯公司們是以台北市的所有生齒普查資料來揣摩全台區域的某些現況或趨向,這不管是就統計方式或是哄騙資料探勘,在都有利用部門(樣本)來揣摩悉數(母體)的問題。固然,用台北市來推估台灣,就肥蝦認為,這實在是一個很低劣的體例,所致使的毛病是較著可見的。
關於資料探勘這門較之統計,完全可說是一門新興學問的學門而言,肥蝦也只修過劉育津先生的一學期課程,所知其實十分有限!但照舊自言不慚的將本身的想法與心得佈鼓雷門一下。資料探勘在維基百科中的解釋為:「a branch of computer science and artificial intelligence, is theprocess of extracting patterns from data. Data mining is seen as anincreasingly important tool by modern business to transform data into businessintelligence giving an informational advantage.」這裡也僅僅是概要的申明它是計較機科學與人工智慧的一支,是一個從資估中萃取型態的程序。在Jiawei Han,Micheline Kamber與Jian Pei所著【Data Mining: Concepts and Techniques】一書中說:「Simply stated翻譯社 data mining refers to extracting or"mining" knowledge from large amounts of data.」意即從大量資估中萃取或挖掘出常識翻譯
本文來自: http://mypaper.pchome.com.tw/pmpnumberone/post/1321787427有關各國語文翻譯公證的問題歡迎諮詢華頓翻譯公司02-77260932