【網絡傳播三人會乾貨整理1-張榮顯】文本大數據的研究怎樣做得好？

11月24日晚七點，以"文本大數據的研究怎樣做得好？"為主題的第五期網絡傳播三人會熱火朝天地在線上舉行，本次線上會議由中國新聞史學會網絡傳播研究史委員會主辦，澳門互聯網研究學會承辦。來自一百多所大專院校、科研機構，近五百位學者和研究生，共同聆聽“如何利用大數據技術輔助進行內容分析法”的實戰案例。

本次網絡傳播三人會的主持人及主講嘉賓分別是：

•主持人：張榮顯博士 - 澳門互聯網研究學會會長、易研創始人兼總裁

引子：文本大數據的研究怎樣做得好？如何利用大數據技術輔助內容分析？

•主講嘉賓：王丹博士 - 香港浸會大學傳理學院高級研究助理級碩士課程兼職講師

主講題目：海內外報紙報導“一帶一路”及內容分析的研究方法

•主講嘉賓：張文瑜博士 - 澳門大學傳播系助理教授

主講題目：文本大數據研究：自動化新聞或社交媒體文本分析為例

•主講嘉賓：程蕭瀟 - 清華大學新聞與傳播學院博士候選人

主講題目：作為數據的文本：大數據技術輔助內容分析中的數據探索與預處理

本期我們首先介紹主持人張榮顯博士的發言內容，發言內容以大數據作為開端，介紹了文本大數據的研究路徑以及人工智能在文本大數據研究中的不足之處，並提出了大數據技術輔助在線內容分析法（BACA）作為解決這些問題的新路徑。

小編將張榮顯博士精彩發言進行總結以饗讀者，文章較長，分為以下幾個部分（整篇大概需要8分鐘左右閱讀時間）：

• 什麼是大數據(big data)？

• 什麼是文本大數據 (text big data)？

• 文本大數據的研究路徑

• 人工智能(AI)於文本大數據研究中的缺陷

• 新路徑：大數據技術輔助在線內容分析法

後續小編會繼續分享主講嘉賓的精彩演講，敬請期待...

一、什麼是大數據?

大數據簡而言之，從物理上來講，就是任何超過一台電腦處理能力的龐大數據量，以前是以TB為單位來描述數據量的多少，而現在是以Pb、EB、zb、yB和BB為單位的大量數據。

大數據具有大（數據量龐大：來自四方八面大量的信號），雜（信息多樣性：文字、圖像、語音、視頻、地理位置…）、快（處理速度快：每分每秒變化）和疑（不確定性：數據是否真實）四個特徵，當然還要從這些大數據裏面能提煉出什麼價值出來，這個才是一個最重要也是最需要關注的一個事情。

二、什麼是文本大數據?

文本類的數據，包括新聞、社交網絡、訪談文字記錄、歷史檔案、文獻文檔、政策文本、文學作品、領導發言稿，包括文字、圖片、視頻等等，這些文本數據都具有大、快和雜的特點。從大數據的結構化程度來看，越往下它的結構化程度會越高，越往上，它的非結構化的程度就越高，也就是說不能單純從Excel中的一個格來看出一個資料中的數字或者意義，這些都是一種非結構化的狀態。

三、文本大數據的三個研究路徑

文本挖掘

利用人工智能或機器學習的技術，大量把非結構化的文本數據中抽取的分析書。通常我們都說自然語言處理的NLP的技術來進行產出如情緒主題、詞語或者詞語圖及其相關性或者意圖等等，並且可以以可視化的方式來呈現這個結果。通常都是利用python或者說語言來實現。如果做文本挖掘，則需要具備編程的能力，如果是研究人員的，特別是負責編程的，則會有很大的主動性，且可以按照自己的研究設計來回答研究問題。

輿情監測

利用現成的自動化的系統，通常是結合自然語言處理跟機器學習的技術，就可以產出標准化的正負面情緒、詞雲圖、來源分布圖、聲量趨勢圖等可視化結果。這一種研究者就無需具有編程的能力，但研究者會受限於系統，因為程序已經規範好，則研究者會缺乏主動性，也就難以按照自己的研究設計來回答研究問題。

內容分析

它也是利用現成的可定制化的一種系統，通常是結合自然語言處理跟機器學習的技術，可產出標准化比如剛才所提到的正負面情緒，來源分布圖、聲量趨勢圖等可視化結果。有些系統也可以建模，比如說情緒模型，主題聚類模型，詞關系模型和社交網絡分析模型等。研究者無需懂得編程的能力，它是以內容分析法作為核心的操作流程，且研究者具有完全的主動性，也就是說研究者可以按照自己的研究設計，類目的建構跟量化系統等手段來回答研究問題。

“目前這三種比較主流的文本大數據的研究路徑，各有各的好處，也有不同的人在使用不同的方式，要看你面對的是什麼樣的研究問題，你有的資源是什麼”，張榮顯博士表示。

四、關於自動化人工智能應用於

文本大數據研究中的問題

人工智能分兩類，一類是弱人工智能，利用機器來模擬人的某些特定技能的智能，來處理一些特定場景和應用問題，例如我們經常看到像語音或人臉識別，這類是偏向於感知，也就是識別這個層面的水平。一類是強人工智能，它需要達到有理解的，有認知的，有判斷層面的的水平以及幾乎接近人類的這種適應水平，當然現在並沒有這樣子的一個例子出現，這類是比較偏向於認知和判斷層面的水平。

而在文本數據的分析當中，如果涉及到認知跟判斷層面的時候，會面臨中文語境及上文下理的問題，包括很多場景，也包括常識性的東西，不一定能夠理解。另外當文本當中有具體指向物，尤其出現多個的時候，還有反諷、暗語、價值判斷、及多變量關系等問題出現。

人工智能 /機器學習的“能”與“不能”

人工智能比較擅長感知，也就是識別，但涉及到情感倫理、道德判斷、認知判斷，人工智能的效果就不是太好。特別是在情景語境高度相關的情況之下，確實有很大對理解和認知判斷的能力，比如曾經有人舉例說，你能穿多少就穿多少，這句話在冬天的時候跟夏天的時候，它的含義是完全不一樣的。另外一個就是北漂老家的媽媽經常催他結婚，然後回答我原來喜歡一個人，現在喜歡一個人，這樣的情形就很難去理解。

所以，從感知和認知去判斷，重要的不是我們能看到可視化的一個結果，而是這些結果能帶來給我們做出判斷的信心和確定性有多高，那就是需要從一開始的數據庫建立，到設定分析框架，到測量的分析，都由我們"人"來掌控的。

文本大數據的三大挑戰

前最需要關注的處理文本大數據這三大的挑戰:

1.覆蓋 - 解釋數據是否齊全，代表性如何，數據的質量怎麼樣？

2.測量 - 可以測量什麼？如何測量？

3.解釋 - 如何分析挖掘以及解釋發現?

歸根到底，還是3個社會科學研究中永恒的問題：信度！效度！變量之間的差異及關系！

五、新路徑：大數據技術輔助在線內容分析法

我們提出新的路徑就是大數據技術輔助在線內容分析法（Big-data-tech-aided Online Content Analysis，簡稱BACA），整個框架就是讓海量的數據結構化，從線上或線下提交數據，發現未知的規則，然後在已知當中深度去探索，利用在線內容分析，包括人工編碼結合AI編碼或者機器學習編碼的方式來完成。我們強調就是一個系統化，客觀性跟可量化的一種方式。

內容分析法的演變過程

內容分析法的技術演變過程就是從傳統內容人工（從紙筆到Excel），計算機輔助內容分析它是輔助做數據處理，包括用一些單機、語料庫詞庫和算法等等的技術導入，大數據技術的內容分析法是人機結合機器算法和數據的驅動來做成，功能包括數據探索，數據管理、信度測試、編碼、質量監控、團隊協作，統計分析及可視化等等，通過技術的導入，比如雲計算、AI算法、ML模型，網絡挖掘及統計等來實現。

大數據輔助內容分析法的操作流程

通過大數據技術的輔助，可以在線完成整個內容分析法的操作跟分析層面的流程，具體操作流程如下圖所示。

BACA的研究分析策略

左半藍色部分是機器技術，右半黃色部分是研究人員，兩者相結合在一起，是大數據技術輔助結合人工智能介入的一個情景。通過人的主動研究，主動思考，把研究設計嵌入到整個分析策略的流程裏面，最後用機器產出結果，也可以通過人工去產出結果，或者兩者都可以實現的一個研究分析策略流程。

最後，張榮顯博士指出，"利用大數據技術輔助在線內容分析法，即使你不會計算機編程，只要你掌握了研究方法的邏輯，遵循學術的規範，都可以主動的按照自己的研究設計，做出“好”的文本大數據研究成果”。

</section>