什麼是自然語言生成（NLG）及其重要性、原理和應用

人工智慧正在以各種用例顛覆各個行業，而內容自動化就是其中的一個應用。自然語言生成（NLG）是文字內容自動化背後的人工智慧技術，它有能力將資料轉換為單詞、句子、文章甚至電影劇本。

自然語言生成（NLG）

在這篇文章中，我們強調了NLG的所有重要方面，包括它為什麼重要、它如何工作、挑戰、應用和適用領域。

什麼是自然語言生成？

自然語言生成（NLG）是自然語言處理（NLP）的一個子類別，是一個將結構化資料自動轉換為人類可讀文字的軟體過程。

使用NLG，企業可以在幾分鐘內使用正確的資料以正確的格式生成數千頁的資料驅動的敘述。NLG是內容自動化的一個子類別，側重於文字自動化。

為什麼自然語言生成很重要？

大約35%的客戶在決定購買哪種產品之前會閱讀部落格和網站。對於許多電子商務和零售公司來說，為每個產品手動生成內容是很困難的。NLG技術可以使這個過程自動化。因此，改善公司的整體營銷/銷售工作。

NLG市場也有潛力，因為：

可用的資料在不斷增加，而文字比資料更容易消化，可以幫助更有效地溝通資料。
在數字化和人工智慧時代，消費者期待個性化，而NLG可以大規模地提供這種服務。

NLG是如何工作的？

一個自動化的文字生成過程包括6個階段。為了簡單起見，我們將以機器人記者的足球比賽新聞為例來解釋每個階段：

1. 內容確定

應確定內容的界限。資料往往包含超過必要的資訊。在足球新聞的例子中，有關進球、出牌和判罰的內容對讀者來說會很重要。

2. 資料解釋

對分析的資料進行解釋。由於機器學習技術，可以在處理後的資料中識別出模式。這就是資料被放入背景的地方。例如，在這個階段，諸如比賽的贏家、進球者和助攻、進球的時間等資訊被識別。

3. 檔案規劃

在這個階段，資料中的結構被組織起來，目的是建立一個敘述性的結構和檔案計劃。

足球新聞一般以一段話開始，指出比賽的比分，並附上評論，描述比賽的激烈程度和競爭性，然後作者提醒各隊的賽前排名，在接下來的段落中描述比賽的其他亮點，最後是球員和教練的採訪。

4. 句子聚合

這也被稱為微觀規劃，這個過程是為終端使用者選擇每個句子的表達方式和詞語。換句話說，這個階段是將不同的句子因其相關性而在上下文中進行聚合。

例如，下面，前兩個句子提供了不同的含義。然而，如果第二個事件正好發生在半場結束前，那麼這兩個句子就可以像第三句那樣被聚合起來：

“[X隊]保持領先進入中場休息。”
“VAR推翻了判給[Y隊]的[足球運動員Z]一個點球的決定，因為回放顯示[足球運動員T]的明顯踢球沒有連線。”
“[X隊]在VAR推翻了對[Y隊]的[足球運動員Z]的判罰，因為回放顯示[足球運動員T]的明顯踢球沒有踢中後，他們將領先優勢保持到半場結束。”

5. 語法化

語法化階段確保整個報告遵循正確的語法形式、拼寫和標點符號。這包括根據句法、詞法和正字法的規則對實際文字進行驗證。例如，足球比賽要用過去式來寫。

6. 語言實施

這個階段包括將資料輸入模板，並確保檔案以正確的格式和根據使用者的喜好輸出。

自然語言生成的前7個應用領域？

由於NLG的目的是使資料有意義，並建立人類可讀的見解，因此它可以應用於處理報告、內容建立和內容個性化的所有領域。

1. 零售和批發

NLG解決方案可以為線上購物和電子商務提供產品描述和分類，並幫助通過聊天機器人進行個性化的客戶溝通。AX Semantics的執行長Steven Morell正在解釋一個電子商務網站如何利用AX Semantics的NLG工具自動完成他們的產品描述編寫過程。

2. 銀行和金融

銀行業高度依賴資料和洞察力來進行業績報告。此外，利潤和損失報告也可以通過NLG系統實現自動化。NLG技術可以用來支援與客戶互動的金融科技聊天機器人，以提供個人財務管理建議。

3. 製造業

隨著物聯網應用在生產現場更廣泛地實施，它們產生了大量對效能改進和維護有用的資料。NLG可以自動溝通重要的發現，如物聯網裝置狀態和維護報告，以便員工能夠更快地採取行動。

4. 媒體

NLG解決方案可以幫助總結和建立內容。特別是體育和金融新聞（也稱為機器人記者）往往遵循類似的模板，解釋此類事件的文字可以很容易地建立。

關於機器人記者和其他AI在媒體中的應用的更多資訊，請隨時檢視我們的相關文章。

5. 保險

NLG解決方案可以幫助改善對客戶的個性化計劃的溝通。

6. 交通

聊天機器人可以提供有關延誤和時間表的提醒。NLG工具可以用來建立個性化的、易於閱讀的旅行計劃。

7. 政治

最危險的用例可能是使用NLG解決方案來傳播個性化的宣傳和錯誤資訊。不幸的是，這有可能使當前的政治虛假資訊流變得更加危險和個性化。

有哪些得益於NLG的真實世界內容自動化案例？

下面是一些使用NLG的真實世界的內容自動化例子：

GPT-3是OpenAI開發的一個語言模型。這裡有一篇關於 “機器人和平而來” 的文章，是由OpenAI的語言生成器GPT-3編寫的。雖然GPT-3創造了寫得很好的敘述，但它在邏輯理解方面有所欠缺，這使得它的文章容易出現錯誤。
LaMDA是谷歌在2021年中期推出的對話應用的語言模型。它在大量的資料上進行了訓練，並作為一個人工智慧被介紹給公眾人群，它假裝是冥王星，和一個紙飛機。
悟道是中國的GPT-3的 “改進版”，在4.9兆位元組的高質量影象和中英文文字上進行訓練。它能夠生成文字和影象，並以能夠寫詩、繪畫和作曲的虛擬學生的形式介紹給眾人。
2019年，Springer出版了第一本機器生成的書。
Gmail的 “智慧撰寫”（Smart Compose）為電子郵件中接下來應該輸入的內容提供建議。它還會從你的選擇中學習，以加強對即將到來的電子郵件的推薦演算法。
使用NLG的轉述工具QuillBot。
所有對話式人工智慧/聊天機器人應用也是NLG的例子。

新聞

美聯社使用NLG自動建立企業收益報告。
華盛頓郵報正在使用他們內部的自動講故事技術，稱為Heliograf，每週報道所有華盛頓特區的高中橄欖球比賽。
這是一個展示所有足球和冰球的網站，在瑞典。所有關於每場比賽的文章，從兒童比賽到頂級聯賽，都由Lingmill的文字機器人撰寫。

用NLG實現內容自動化的挑戰是什麼？

1. 資料的可用性和質量

自動化的內容需要高質量的結構化資料。因此，內容自動化很適合金融、體育或天氣等領域，在這些領域中，資料提供者會確保資料的準確性和可靠性。

2. 原創性和寫作質量

自然語言生成僅限於通過分析給定的資料為預先寫好的問題提供答案。演算法不能提出新的問題，檢測需求，識別威脅，解決問題，或對社會和政策變化等話題給出自己的想法和解釋。

由於機器學習和資料增強技術，NLG內容的質量可能會不斷提高。然而，自動生成的文章往往不如人寫的文章具有原創性。

3. 偏見

NLG演算法依賴於資料和假設。人工智慧的偏見會產生有偏見的演算法和結果。

NLG NLG應用