大模型訓練數據與新聞語料數據服務

合規、高質、實時——樂思爲AI公司、NLP研究團隊與數據分析機構提供中文新聞語料、結構化輿情數據及實時數據API,加速AI模型研發

日均新增新聞數據量可達10億+條
覆蓋500+新聞媒體數據源
支持API/批量下載/私有化部署

AI數據團隊面臨的三大核心挑戰

🔧

數據清洗成本巨大

原始爬取數據質量參差不齊,需要投入大量人力進行清洗、去重、標註才能用於訓練

🕐

實時數據獲取困難

模型推理和AIGC系統需要接入實時新聞流,自建方案穩定性差且維護成本高

樂思三大AI數據產品

📚 歷史新聞語料庫

大規模預訓練數據
  • 5年+中文新聞數據
  • 標題/正文/發佈時間/來源媒體/情感標籤完整字段
  • 按行業/地域/主題分類
  • JSON/CSV/自定義結構

適用場景: 大語言模型預訓練、情感分析模型訓練、知識圖譜構建

實時新聞數據API

分鐘級推送 99.9% SLA
  • 分鐘級數據推送
  • RESTful API + WebSocket雙模式
  • 關鍵詞/情感/來源多維過濾
  • 自動擴容與負載均衡

適用場景: AIGC內容審覈、實時輿情分析應用、信息檢索增強RAG

🏷️ 標註數據集服務

監督學習訓練數據
  • 情感極性標註(正/負/中性)
  • 實體識別標註(人名/機構/地點/事件)
  • 主題分類標註(14大行業)
  • 高質量標註與質檢覆蓋

適用場景: 監督學習模型微調、小樣本學習、模型評測基準集

數據格式與質量說明

樂思數據採用標準化JSON格式,支持自定義字段組合

{
  "id": "news_20250310_001",
  "title": "央行宣佈下調存款準備金率0.5個百分點",
  "content": "中國人民銀行決定下調金融機構存款準備金率0.5個百分點,將釋放流動性約1.5萬億元...",
  "source": "新華社",
  "publish_time": "2025-03-10T09:30:00+08:00",
  "category": "金融",
  "sentiment": "neutral",
  "entities": ["央行", "存款準備金率", "中國人民銀行"],
  "keywords": ["貨幣政策", "流動性", "宏觀調控"],
  "url": "https://news.xinhuanet.com/..."
}

99.8%+

去重率

100%

中文編碼準確率

5%

每日QA抽檢覆蓋率

技術規格與接入說明

API規格表
參數 說明
基礎URL https://api.knowlesys.cn/v2
認證方式 Bearer Token / API Key
數據格式 JSON
響應時間 <200ms
限流策略 1000 req/min
可用性SLA 99.9%
Python接入示例
import requests

API_KEY = "your_api_key"
url = "https://api.knowlesys.cn/v2/news/stream"

params = {
    "keywords": "人工智能,大模型",
    "sentiment": "negative",
    "limit": 100,
    "start_date": "2025-03-01"
}

headers = {"Authorization": f"Bearer {API_KEY}"}
resp = requests.get(url, params=params,
                   headers=headers)
data = resp.json()

for item in data['items']:
    print(f"{item['title']}")
    print(f"來源: {item['source']}")
    print(f"情感: {item['sentiment']}\n")

哪些團隊在使用樂思數據服務?

🤖

大語言模型公司

使用新聞語料庫進行大模型預訓練,提升模型的新聞理解與生成能力

📊

NLP研究團隊

利用標註數據集進行情感分析、實體識別等NLP任務的模型研究與評測

💹

金融量化機構

通過實時新聞API獲取市場輿情數據,輔助量化投資決策

💼

輿情SaaS開發商

集成樂思數據API豐富自有產品的數據源,加強市場競爭力

🎧

智能客服公司

利用新聞數據與標註樣本優化客戶情緒識別與應答準確率

🛡️

內容安全公司

通過結構化輿情數據識別有害內容模式,完善內容審覈算法

常見問題

API支持哪些數據過濾和查詢方式?
樂思API支持關鍵詞過濾、情感過濾、來源過濾、時間範圍過濾等多維度查詢,支持RESTful API與WebSocket雙模式,可滿足實時數據流與批量查詢需求。
數據API的可用性和性能如何?
樂思數據API提供99.9% SLA可用性保障,分鐘級數據推送,支持自動擴容和負載均衡,可穩定支持大規模併發請求。
標註數據集包括哪些標註類型?
樂思標註數據集提供情感極性標註(正/負/中性三分類)、實體識別標註(人名/機構/地點/事件)、主題分類標註(14大行業分類)等多種標註類型。
歷史新聞語料庫的數據規模有多大?
樂思歷史新聞語料庫包含5年以上的中文新聞數據,涵蓋500+新聞媒體源,每條記錄都包含標題、正文、發佈時間、來源媒體、情感標籤等完整字段。

申請數據試用

獲取優質新聞數據,體驗樂思AI數據服務

立即申請