人工智能怎樣應用在文本數據研究中?

人工智能怎樣應用在文本數據研究中?

2019-08-21易研乾貨

在人人都談論大數據人工智能的時代,社會科學研究的未來是否可以與這些新的技術發展結伴而行?這成了困擾當前社會科學領域研究的一大難題。



社會科學是探索人類社會及其發展規律的科學,這一領域涉及哲學、經濟學、法學、政治學、社會學、歷史學、文學、藝術等學科。隨著大數據時代的到來,人工智能、機器學習、深度學習等爲社會科學研究帶來了新的機遇和視野,但同時也因社會科學領域研究者所掌握的技術、算法的相關知識相對較爲薄弱,使得其對人工智能等技術應用望而却步。



什麽是人工智能?

</section></section></section></section>


人工智能主要指機器以模仿人類智能的方式執行任務,[1]具體來說,可從三個層次理解人工智能。


第一個層面比較泛泛而談,指機器執行我們通常理解的(human-like understanding)任務的能力。[2]


第二個層面綜合了類似人類的多種能力,即機器具有像人類一樣感知(sense)、理解(comprehend)、行動(act)、學習(learn)的能力。[3]


第三個層面上升至認知和判斷並解决問題的能力,人工智能顯示出類似人類的認知能力和執行能力,强調人工智能是一種複雜的技術應用,機器能展示人類的認知功能(human cognitive),如學習、分析和解决問題。[4]


人工智能怎樣應用在文本數據研究中? 配圖1


總體來講,人工智能主要集中在類似人類的感知、認知和判斷能力方面的探索和實踐


根據機器是否具有自主意識,可區分爲

1

具有自主意識的强人工智能

</section>

2

不具有自主意識的弱人工智能[5]

</section>


弱人工智能主要是模擬人的某些特定的技能,智能處理一些特定場景和應用的問題,實際應用領域包括,例如語音識別,圖像人臉識別,自然語言處理,信息檢索,自動駕駛,智能控制機器人等。


人工智能怎樣應用在文本數據研究中? 配圖2


人工智能的發展目前尚停留在弱人工智能階段,正努力向具有自主意識的强人工智能突破。


那麽,當强人工智能應用得以實現後,是否意味著人工智能就可以取代人類呢



人工智能VS人類

</section></section></section></section>


在人工智能的實踐和應用中出現過機器戰勝人類的AlphaGo,它結合了蒙特卡洛樹搜索與深度神經網絡(决策網絡和數值網絡)算法,通過自我學習進行直覺訓練,匹配職業棋手的過往棋局中約含3000萬步棋著,進行强化學習,以達到甚至超越人類的圍棋水平。[6]


在2017年5月,AlphaGo戰勝了世界第一棋手柯潔,是圍棋界一次人工智能算法成功的嘗試,引發了人工智能可以戰勝人類的討論。但AlphaGo在與人類進行圍棋對决的過程中,也有“人不可能不出錯”的因素。


人工智能怎样应用在文本数据研究? 配图4


相比於不斷“進化”的AlphaGo,紅極一時的索菲亞機器人通過預先錄好的脚本應答各種問題,模仿人類的手勢和面部表情,並能够與人進行簡單的對話交流。2016年,曾登上時尚雜志封面、接受各地媒體訪談,走上機器人巔峰。[7]


雖然索菲亞機器人逼真的外形和快速反應的能力曾經讓大家以爲具有自我意識的人工智能時代已經到來。但這種只能通過預先設定的脚本進行反應的做法仍然是處於弱人工智能階段,它還是無法自我思考。


人工智能怎样应用在文本数据研究? 配图5


在《哈佛商業評論》(Harvard Business Review)中,有學者總結目前不會被人工智能取代的七大技能[8],指出當前人工智能還無法通過技術或算法達到的能力,這也是目前否定人工智能可以取代人類的原因所在


講故事的溝通能力(Communication)

</section>

具有專業知識的內容(Content)

</section>

對場景理解的能力(Context)

</section>

多層次的情感處理的能力(Emotional competence)

</section>

因材施教(Teaching)

</section>

兼備人際的强關係弱關係(Connections)

</section>

倫理和道德的判斷(An ethical compass)

</section>


由此可見,人工智能的實踐和應用在目前取得的成果基本上還是停留在一個非自主意識的弱人工智能階段,機器實現自我意識不是在短時間內就可以達到的,我們能做的是不斷提升技術,優化算法,不斷提升機器學習和輔助的能力


因而,我們不應該去問人工智能是否會取代人類,或者計算機能否贏得圖靈的模仿遊戲這類問題,我們需要機器來做那些人類做不到、做不好的事情,這才是關於人工智能需要去研究的具體問題。[9]只有這樣,才能讓人工智能真正向惠及人類的實踐應用發展。 


所以,停止關心機器取代人類的問題,將關注點聚焦在機器如何輔助我們的實踐應用中



回到社會科學研究

</section></section></section></section>


在社會科學研究中,人工智能多應用在數據的分析和處理過程中,尤其是對文本數據的意義挖掘和價值洞察。涉及到的文本數據類型多樣,包括新聞報道、社交網絡的信息、歷史檔案、訪談文字、文獻、政策文檔等。過去,在傳統的社會科學研究中,都是人工進行文本或者數據的分析和處理,如今,運用人工智能來面對文本或數據的時候,如何從文本中來理解人的行爲和想法?


人工智能在文本大數據的挖掘與分析中的應用,集中在媒體監測和趨勢預測等方面。以輿情領域的研究和實踐爲例,當前很多應用是處於收集資料的階段,即是人工智能的感知層面。利用機器獲取數據涉及到數據覆蓋度的問題,是機器獲取的數據是否齊全或者是否具有代表性以及獲取到的數據質量的考量,這與人工智能對於數據獲取的感知能力有關。


認知,相當於機器通過對自然語言文本的理解,進行智能的自動化歸類和分析,實務上來說,就是如何去測量,從文本中得到意義和洞察結果。


判斷,相當於瞭解了文本之後所作出的决策和行爲。也就是說,怎麽解釋、分析、挖掘研究發現,協助用戶可以做出正確的判斷,以爲後續采取行動做指引和參考。


這三部曲,就是利用人工智能輔助進行文本數據的挖掘及分析時需要考慮的問題,這也是當前文本大數據挖掘和分析過程中遇到的三大挑戰。




以當前輿情分析爲例

</section></section></section></section>


聚焦在自然語言處理方面,人工智能在文本大數據挖掘的方面目前已經有了一些應用。


以輿情系統爲例,當前主要以描述KPI的結果爲主(如圖1所示),如數據來源、內容的分類、點贊數、跟帖數、分享量、熱度,情感分析、情緒分析等。這些都是機器感知的一部分,但目前這種分析能力還只是停留在初步的階段,仍然需要進一步深度的挖掘和分析。


人工智能怎样应用在文本数据研究? 配图7

輿情分析中的KPI結果呈現



人工智能面臨的主要的難題

——對語境和場景的認知

</section></section></section></section>


無論是輿情研究還是其他的文本研究中,認知層面涉及到的問題是目前機器比較難以解决的,尤其是需要考量中文千變萬化的語境和上下文複雜的場景。對於機器來說,針對語境和場景進行理解需要大量的常識,這也是目前人工智能應用較難突破的部分,但是語境和場景也恰巧是文本數據中不可忽視的重要部分。


人工智能怎样应用在文本数据研究? 配图8


 “小妞,你今天棒呆啦”,這個句子中的形容詞“棒呆啦”指代的到底是贊賞還是諷刺?Amy做了一件很正確的好事時,就是讚賞,但當Amy做了一件糟糕的事情時,就是一種責備和諷刺。在不同場景下,“棒呆啦”一詞的含義可以是完全不一樣的。


在缺乏對語境和場景的常識下,機器的認知會産生歧義或者是不理解的狀况。同時,文本的自動化情感分析也會出現同樣的問題,無論是基於機器學習還是詞庫匹配的情感分類,機器都無法像人一樣具有場景和語境的常識,對於文中涉及到的如反諷、暗語等修辭的認知能力還遠遠不及人類的理解水平。



在紛繁複雜的場景和語境中重塑5W1H

</section></section></section></section>


通過重塑5W1H(Who, What, Where, When, Why和How),以此來呈現信息中的關鍵要素,這也是文本挖掘和分析試圖在做的事情。當前,機器是可以對Who, What, Where, When進行挖掘和分析的。例如,以通過人物角色、意見領袖進行Who(誰)的挖掘和分析。通過關鍵詞定義議題的概念,對What(議題)進行挖掘。通過對地點和信息來源渠道進行Where(地點)的挖掘。通過API的方式,實時采集數據,得以實現對於When(何時)時間信息的挖掘。


另外兩個關於因果的Why 和 How,在目前的技術水平上,機器基本上是沒辦法幫我們解决的。


除了對於基本要素5W1H的理解,社會科學研究更需要强調的是變量之間的差異和關係,以及數據背後的因果探索。如何利用人工智能輔助進行多個變量的差異性或者關係的分析?如何提升對文本的感知、認知和判斷的能力?這是文本大數據挖掘和分析過程中需要解决的問題。



過度的程序化和同質化

</section></section></section></section>


總結當前輿情分析中存在的問題,過度的程序化和同質化都限制了我們的想像力,解釋力和判斷力,這樣就限制了我們找出更有洞察力的一些發現。所以從感知、認知到判斷,重要的不是我們所看到的可視化結果,而是這些結果能帶給我們作出判斷的信心和確定性。這就需要從數據庫的建立——抓取數據開始,到設定分析框架,從測量到分析,應該都是由我們“人”來掌握的,是我們决定機器給我們看什麽,而不是機器决定我們看什麽。



信息技術—>社會科學

</section></section></section></section>


文本大數據挖掘過程經歷不同的幾個階段。最初,是通過搜索電子簡報,對信息歸類。到現在是輿情監測、品牌聆聽的做法,從符號/信號到歸類資料到信息可視化,目前都已經做了很多的實踐和應用。大部分的輿情分析工具都是在這個階段,有很多運用機器進行自動化分析的系統或程序。


但想要做到監測之後的分析和挖掘,就需要對文本大數據挖掘有全新的理解,即從信息技術(Information technology)的視角轉向至社會科學(Social sciences)的視角,也就是說,信息技術應該是輔助文本的挖掘和分析


文本大數據挖掘過程經歷的階段


運用人機結合,在內容挖掘、語義分析、結構挖掘和社交關係等分析方面,突破感知的層面,提升認知和判斷的能力。在充分利用機器輔助的前提下,結合社會科學的概念與方法,以覆蓋度、測量和解釋這三個重要的維度爲重心,聚焦人工智能對文本的感知、認知和判斷層面來處理文本大數據所面臨的種種問題。



人工智能+社會科學研究方法

</section></section></section></section>


如何實現這種人機結合的機制,將大數據技術與社會科學研究方法結合?


將傳統的社會科學研究方法——內容分析法,融合在大數據技術平台上,形成集網絡挖掘、機器學習、內容編碼、統計分析情感分析等這些模組集中在一個平台上(DiVoMiner®)進行文本大數據的挖掘和分析[10],方便研究人員一站式進行研究設計,類目建構、內容編碼、質量監控、數據分析可視化結果輸出,形成一整套科學、系統的大數據技術輔助在線內容分析法,供社會科學研究領域對於文本數據的挖掘與深度分析。 


DiVoMiner®大數據技術輔助在線內容分析法模組


大數據技術輔助在線內容分析法機制


爲滿足社會科學研究對研究質量的需要,平台提供信度測試和質量控制機制,以保證文本挖掘和分析過程的科學和嚴謹。尤其是內容編碼這部分,不同於當前人工智能領域中的“打標簽”,主要差別在於內容編碼的嚴謹程序化,除了前測編碼外,編碼員之間的內在信度和編碼質量也都有保障。


正是因爲結合了社會科學研究方法,使得研究更具有定制性特徵,給予研究人員更多的自主空間進行個性化的研究,解决了當前輿情分析或文本挖掘與分析中面臨的問題,例如自動化情感分析中,機器無法解决語境和指向物模糊的問題,在DiVoMiner®上可以通過設定具體的定制化類目,對文本中的變量進行測量。因而通過社會科學研究方法的應用,實現了對於文本中的多變量的差異和關係的挖掘。


參考文獻


[1] Marr, B. (2016). What is the difference between artificial intelligence and machine learning? Forbes. Retrieved from:

https://www.forbes.com/sites/bernardmarr/2016/12/06/what-is-the-difference-between-artificial-intelligence-and-machine-learning/#66fdb6862742.


[2] Knowledge@Wharton (2018). Vishal Sikka: Why AI needs a broader, more realistic approach. Retrieved fromhttp://knowledge.wharton.upenn.edu/article/ai-needsbroader- realistic-approach/.


[3] Daugherty, P., Carrel-Billiard, M., & Biltz, M. (2018). Accenture technology vision 2018. Retrieved from. Intelligent Enterprise Unleashed. Accenturehttps://www. accenture.com/t00010101T000000Zw/nz-en/_acnmedia/Accenture/next-gen-7/tech-vision-2018/pdf/Accenture-TechVision-2018-Tech-Trends-Report.pdf#zoom=50.


[4] Valin, J. (2018). Humans still needed: An analysis of skills and tools in public relations. Discussion paper. Retrieved from London: Chartered Institute of Public Relations. https://www.cipr.co.uk/sites/default/files/11497_CIPR_AIinPR_A4_v7.pdf.


[5] Searle, J. (1980). Minds, brains and programs. Behavioral and Brain Sciences, 3, 417-457. doi10.1017/S0140525X00005756.


[6] Silver, D.,Huang, A., & Maddison, C. J. ect. (2016). Mastering the game of Go with deep neural networks and tree search. Nature: 484–489. doi:10.1038/nature16961.


[7] 2018AI界的第一件大事記:索菲亞原來是個“騙子”. 新浪財經頭條. 2018年8月22日. https://t.cj.sina.com.cn/articles/view/5612652531/14e8a47f300100cm5j


[8] Adam J. Gustein & John Sviokla. 7 Skills That Aren’t About to Be Automated. Harvard Business Review. 2018年7月17日。https://hbr.org/2018/07/7-skills-that-arent-about-to-be-automated?utm_medium=social&utm_campaign=hbr&utm_source=facebook&from=timeline


[9] Parnas, & Lorge, D. . (2017). The real risks of artificial intelligence. Communications of the ACM, 60(10), 27-31.


[10] 張榮顯,曹文鴛:《網絡輿情研究新路徑:大數據技術輔助網絡內容挖掘與分析》,《汕頭大學學報》(人文社會科學版)2016年,第8期,第111-121頁。


發現

關於

產品

獎項

資訊

English繁體中文
退出登入