編者按:數字信息時代人們獲取新聞的方式越來越高效,但是獲取新聞中關鍵信息的效率卻很低。而 NLP 領域的新聞標題生成任務 (News Headline Generation)則可以基于新聞正文,自動生成包含關鍵信息的簡短標題,使讀者可以高效地獲知新聞中的重要內容。
為了開展新聞標題生成任務的研究,微軟亞洲研究院的研究員們構建了個可以離線評測個性化新聞標題生成方法的基準數據集:PENS(PErsonalized News headlineS)數據集;同時還提出了一種個性化新聞標題生成的通用框架,并且對其進行了效果評估。該論文 “PENS: A Dataset and Generic Framework for Personalized News Headline Geneation" 已被 ACL 2021 收錄。
在數字信息時代,由于文本信息的數量、傳播速度都以指數形式增長,因此導致信息過載問題日趨嚴重。以新聞為例,每天新發布的新聞消息不計其數,用戶難以在有限的時間內,從海量的新聞中篩選出感興趣的文章進一步閱讀,因而用簡明的語言概括新聞的關鍵信息非常重要。在 NLP 領域,新聞標題生成任務(News Headline Generation)可以基于新聞正文,自動生成包含關鍵信息的簡短標題,使讀者高效地獲知新聞中的重要內容。由于標題本身是對新聞正文的高度概括,因此生成標題的簡潔性、流暢性和事實一致性,對該技術來說是一項挑戰。
近年來,隨著用戶個性化服務的普及與人工智能技術的進步,新聞網站等內容平臺希望通過標題來吸引讀者的閱讀興趣,但同時又要避免“標題黨"現象的發生。因此,生成個性化新聞標題成為標題生成領域的一個全新研究方向。
什么是個性化新聞標題呢?舉個例子,有一篇報道籃球比賽的新聞,其潛在的用戶受眾通常是比賽球隊的球迷。如果新聞標題不考慮用戶的閱讀興趣,只是客觀地描述比賽結果,那么輸球一方的球迷進一步閱讀這條新聞的概率可能較小,因為當他們看到標題時就已經知道自己支持的球隊輸了比賽,再具體了解輸球過程的意愿就會相對較低。但是,如果考慮用戶的閱讀興趣,對不同球隊的球迷呈現個性化的標題(如圖1所示),那么即使是輸球方的球迷,可能也愿意去了解這條新聞的內容。比如,以球迷支持的球星為標題的核心詞,突出球員的個人表現。
© 微軟亞洲研究院
圖1:個性化新聞標題的實例
個性化新聞標題生成任務的定義是:給定用戶歷史閱讀行為數據和候選新聞內容,生成用戶專屬的不同新聞標題。生成的標題既要引起用戶的閱讀興趣,提高用戶進一步閱讀、獲取更高點擊和閱讀量的可能,又要兼顧新聞標題的事實一致性,保證用戶的閱讀質量,避免成為標題黨。它有兩個重點子任務:
①學習用戶的個性化閱讀興趣:通過用戶歷史閱讀行為信息,可以對用戶的個性化閱讀興趣建模,從而學習用戶的個性化表示;
②生成個性化新聞標題:將用戶的個性化表示算法與新聞標題生成算法融合,實現為不同閱讀興趣的用戶生成不同的新聞標題。
因此,以個性化標題展示的新聞,由于更能引起用戶的閱讀興趣,進而可能獲得更高的點擊和閱讀量,將成為新聞平臺關注的新興研究領域。
可離線評測的數據集 PENS
開展個性化新聞標題生成的研究,需要一個大規模的數據集,以開展離線評測。否則,當測試不同算法的表現時,研究者可能需要不斷重復線上 A/B 測試,或者通過組織人工評價的方式來觀察算法效果,不但實現成本高,而且公平性及可復現性均難以保證。
為了進一步研究個性化新聞標題的生成,微軟亞洲研究院的研究員們構建了PENS(PErsonalized News headlineS)數據集,該數據集是個離線評測個性化新聞標題生成方法的基準數據集,且所有數據基于 Microsoft News 用戶的匿名化新聞點擊記錄構建,同時包含了用戶行為信息和新聞語料信息。
PENS 的新聞語料庫包含了約11萬則英文新聞文章,每篇新聞文章都由四部分內容組成:新聞ID、新聞標題、新聞正文和新聞類別標簽。所有訓練和測試數據中出現的新聞,都與語料庫中文章的新聞 ID一一對應。 PENS 的訓練數據集則包含了匿名用戶的新聞曝光日志(Impression Log),其中包括44萬名匿名用戶的50萬次新聞曝光日志,以及每名用戶的歷史點擊信息。具體而言,每一條訓練數據都由五部分內容組成:用戶 ID、曝光時間戳、點擊新聞列表、未點擊新聞列表、用戶歷史點擊新聞列表。所有列表中出現的新聞按曝光時間排序。
為了滿足離線評測的需求,研究員們邀請了103名以英語為母語的高校學生(以下簡稱“標注者"),人工創建 PENS 的測試數據集。其構造過程分為兩個階段:階段,每位標注者瀏覽1000條從新聞語料庫中隨機抽取的新聞標題,并從中選擇少50個自己感興趣的標題,視為該用戶的歷史點擊行為;第二階段,每位標注者為另外200篇新聞正文撰寫心中的理想標題。這些人工撰寫的新聞標題由專業新聞編輯審查質量。低質量的標題會被刪除(例如過長、過短或與正文不符),剩余合格的標題作為相應用戶的個性化新聞標題的 標準。
研究員們認為,這些標注者雖然不具備專業的新聞編輯素養,但其人工撰寫的標題能夠充分反映他們的個性化閱讀興趣,因此可以作為測試時的“標準答案"。終,這103名標注者構建的點擊行為數據和撰寫的2萬多個個性化新聞標題構成了 PENS 的測試數據集。在此數據集上,個性化新聞標題生成方法可以采用文本生成中常采用的評價指標來評估其效果,如 BLEU、ROUGE 等。
VNS012 14AK FNV R
VNS011 14AK EAR K
VNS011 14SAKEAR 8P1.1
VNS012 14AKEAR 8P1.X
VCS0 9614AKVRZ 5P0.5P0+2*0GF6G
VCSO 9614SKERZ 5PO+1*OGF6G
VCS0 9614AKVRZ 5P0.5P0+2*0GF6G
VCSO 9614SKERZ 5PO+1*OGF6G
VNSO 33 FN14 AKVRZ 40.40
VNS0 22 FN 18 AK VR H 9P1.9P1+2*PQ55
VV8LB3WK4DA11-6Z+6Z-B-A110-X
V8RB3DDDD-4Z+4Z-B-A060
UNS022.18EAR SS 8557-C2
VNS02-18 AKARHU//SS8557-C1//SPOHN & BURKHARDT
VNSO33FN14AKVRHU 40.40
VNSO4FN18SKERZU
VNSO33FN18AKVRHD40.40
VNS04FN14AKEB
UNS022FN18KKUR12 9P1 9P1
VCS07211KKVR H10.PN+OEGP 10U
VNSO13FU18KKVR10.30
VCS09614AKERZ40
VCS09614AKEBZ40
VCS09614AKERZ40
VNSO2 FN 11SKEZ20
VNSO311AKA8P2
VNS022FU18KKVR 5P0.5P0
VNS022FU18AKVRHD 5P0.5P0
VNS022FU18AKVRHDVSS
VNSO 3FN14SKERZ40
NSO2 FN 11SKEZ20
VNSO311AKA8P2
CS0VRH72*72
杰斯曼主令 VV64.3SJ F NO:0.001 1607/2-02
杰斯曼主令 VV64.3SJ F NO:0.001 1607/1-01
CS17214ERZ10
CS17214KKVRZ10.10
UNS022FN18KKUR 1Z 9P1
UNS02FN18SKER 1Z 9P1
VNSO22.18KKEAR9P1.9P1 KOM NR 2024205-5 5/07帶編碼器及凸輪
VNSO22.18AKEARH 9P1.9P1 KOM NR 2024205-6 5/07帶編碼器及凸輪
VNSO 2 18 SK FNER2
VNS022FN18AKVRIPZ 5PO.5PO
VNS022FU18KKVRIPI 5PO.5PO
VNSO 3 FN 18 SK ER Z 40
VNSO 33 FN 18 AK VR Z 40,40
PL300-5KO-0-5KO AAV S256
VNS033FN18AKVRIPZ40.40
VCS07211ER HDFUZ240 帶安全按鈕
VCS09611AKERTBP2+1XOGF6B/2067889.4.2
VNS02218KKEARHDUZ9P19P1+2VER8G
VNS02218KKEARHDUZ9P19P1
VNSO22FN18AKVRIPZ5P0.5PO 2*OELG
VNSO22FU18AKVRIPZ5P0.5PO 3*OELG
NSO 4FN 14 E G1 nach SS 11555-7B