樂思數據服務如何保證合規性？

樂思與500+新聞媒體建立合法數據合作關係，所有數據均經過版權授權，提供數據溯源證明，完全符合AI模型訓練的合規要求，用戶可放心用於商業模型訓練。

大模型訓練數據與新聞語料數據服務

Q: API支持哪些數據過濾和查詢方式？

樂思API支持關鍵詞過濾、情感過濾、來源過濾、時間範圍過濾等多維度查詢，支持RESTful API與WebSocket雙模式，可滿足實時數據流與批量查詢需求。

Q: 數據API的可用性和性能如何？

樂思數據API提供99.9% SLA可用性保障，分鐘級數據推送，延遲<30秒，支持自動擴容和負載均衡，可穩定支持大規模併發請求。

Q: 標註數據集包括哪些標註類型？

樂思標註數據集提供情感極性標註（正/負/中性三分類）、實體識別標註（人名/機構/地點/事件）、主題分類標註（14大行業分類）等多種標註類型。

Q: 歷史新聞語料庫的數據規模有多大？

樂思歷史新聞語料庫包含10年以上的中文新聞數據，涵蓋500+新聞媒體源，日均新增數據10億+條，每條記錄都包含標題、正文、發佈時間、來源媒體、情感標籤等完整字段。

合規、高質、實時——樂思爲AI公司、NLP研究團隊與數據分析機構提供中文新聞語料、結構化輿情數據及實時數據API，加速AI模型研發

日均新增新聞數據量可達10億+條

覆蓋500+新聞媒體數據源

支持API/批量下載/私有化部署

申請數據試用查看API文檔

AI數據團隊面臨的三大核心挑戰

🔧

數據清洗成本巨大

原始爬取數據質量參差不齊，需要投入大量人力進行清洗、去重、標註才能用於訓練

🕐

實時數據獲取困難

模型推理和AIGC系統需要接入實時新聞流，自建方案穩定性差且維護成本高

樂思三大AI數據產品

📚 歷史新聞語料庫

大規模預訓練數據

5年+中文新聞數據
標題/正文/發佈時間/來源媒體/情感標籤完整字段
按行業/地域/主題分類
JSON/CSV/自定義結構

適用場景： 大語言模型預訓練、情感分析模型訓練、知識圖譜構建

⚡ 實時新聞數據API

分鐘級推送 99.9% SLA

分鐘級數據推送
RESTful API + WebSocket雙模式
關鍵詞/情感/來源多維過濾
自動擴容與負載均衡

適用場景： AIGC內容審覈、實時輿情分析應用、信息檢索增強RAG

🏷️ 標註數據集服務

監督學習訓練數據

情感極性標註（正/負/中性）
實體識別標註（人名/機構/地點/事件）
主題分類標註（14大行業）
高質量標註與質檢覆蓋

適用場景： 監督學習模型微調、小樣本學習、模型評測基準集

數據格式與質量說明

樂思數據採用標準化JSON格式，支持自定義字段組合

{
  "id": "news_20250310_001",
  "title": "央行宣佈下調存款準備金率0.5個百分點",
  "content": "中國人民銀行決定下調金融機構存款準備金率0.5個百分點，將釋放流動性約1.5萬億元...",
  "source": "新華社",
  "publish_time": "2025-03-10T09:30:00+08:00",
  "category": "金融",
  "sentiment": "neutral",
  "entities": ["央行", "存款準備金率", "中國人民銀行"],
  "keywords": ["貨幣政策", "流動性", "宏觀調控"],
  "url": "https://news.xinhuanet.com/..."
}

99.8%+

去重率

100%

中文編碼準確率

5%

每日QA抽檢覆蓋率

技術規格與接入說明

API規格表

參數	說明
基礎URL	https://api.knowlesys.cn/v2
認證方式	Bearer Token / API Key
數據格式	JSON
響應時間	<200ms
限流策略	1000 req/min
可用性SLA	99.9%

Python接入示例

import requests

API_KEY = "your_api_key"
url = "https://api.knowlesys.cn/v2/news/stream"

params = {
    "keywords": "人工智能,大模型",
    "sentiment": "negative",
    "limit": 100,
    "start_date": "2025-03-01"
}

headers = {"Authorization": f"Bearer {API_KEY}"}
resp = requests.get(url, params=params,
                   headers=headers)
data = resp.json()

for item in data['items']:
    print(f"{item['title']}")
    print(f"來源: {item['source']}")
    print(f"情感: {item['sentiment']}\n")

哪些團隊在使用樂思數據服務？

🤖

大語言模型公司

使用新聞語料庫進行大模型預訓練，提升模型的新聞理解與生成能力

📊

NLP研究團隊

利用標註數據集進行情感分析、實體識別等NLP任務的模型研究與評測

💹

金融量化機構

通過實時新聞API獲取市場輿情數據，輔助量化投資決策

💼

輿情SaaS開發商

集成樂思數據API豐富自有產品的數據源，加強市場競爭力

🎧

智能客服公司

利用新聞數據與標註樣本優化客戶情緒識別與應答準確率

🛡️

內容安全公司

通過結構化輿情數據識別有害內容模式，完善內容審覈算法

常見問題

API支持哪些數據過濾和查詢方式？ ▼

樂思API支持關鍵詞過濾、情感過濾、來源過濾、時間範圍過濾等多維度查詢，支持RESTful API與WebSocket雙模式，可滿足實時數據流與批量查詢需求。

數據API的可用性和性能如何？ ▼

樂思數據API提供99.9% SLA可用性保障，分鐘級數據推送，支持自動擴容和負載均衡，可穩定支持大規模併發請求。

標註數據集包括哪些標註類型？ ▼

樂思標註數據集提供情感極性標註（正/負/中性三分類）、實體識別標註（人名/機構/地點/事件）、主題分類標註（14大行業分類）等多種標註類型。

歷史新聞語料庫的數據規模有多大？ ▼

樂思歷史新聞語料庫包含5年以上的中文新聞數據，涵蓋500+新聞媒體源，每條記錄都包含標題、正文、發佈時間、來源媒體、情感標籤等完整字段。