原始爬取數據質量參差不齊,需要投入大量人力進行清洗、去重、標註才能用於訓練
模型推理和AIGC系統需要接入實時新聞流,自建方案穩定性差且維護成本高
適用場景: 大語言模型預訓練、情感分析模型訓練、知識圖譜構建
適用場景: AIGC內容審覈、實時輿情分析應用、信息檢索增強RAG
適用場景: 監督學習模型微調、小樣本學習、模型評測基準集
樂思數據採用標準化JSON格式,支持自定義字段組合
{
"id": "news_20250310_001",
"title": "央行宣佈下調存款準備金率0.5個百分點",
"content": "中國人民銀行決定下調金融機構存款準備金率0.5個百分點,將釋放流動性約1.5萬億元...",
"source": "新華社",
"publish_time": "2025-03-10T09:30:00+08:00",
"category": "金融",
"sentiment": "neutral",
"entities": ["央行", "存款準備金率", "中國人民銀行"],
"keywords": ["貨幣政策", "流動性", "宏觀調控"],
"url": "https://news.xinhuanet.com/..."
}
去重率
中文編碼準確率
每日QA抽檢覆蓋率
| 參數 | 說明 |
|---|---|
| 基礎URL | https://api.knowlesys.cn/v2 |
| 認證方式 | Bearer Token / API Key |
| 數據格式 | JSON |
| 響應時間 | <200ms |
| 限流策略 | 1000 req/min |
| 可用性SLA | 99.9% |
import requests
API_KEY = "your_api_key"
url = "https://api.knowlesys.cn/v2/news/stream"
params = {
"keywords": "人工智能,大模型",
"sentiment": "negative",
"limit": 100,
"start_date": "2025-03-01"
}
headers = {"Authorization": f"Bearer {API_KEY}"}
resp = requests.get(url, params=params,
headers=headers)
data = resp.json()
for item in data['items']:
print(f"{item['title']}")
print(f"來源: {item['source']}")
print(f"情感: {item['sentiment']}\n")
使用新聞語料庫進行大模型預訓練,提升模型的新聞理解與生成能力
利用標註數據集進行情感分析、實體識別等NLP任務的模型研究與評測
通過實時新聞API獲取市場輿情數據,輔助量化投資決策
集成樂思數據API豐富自有產品的數據源,加強市場競爭力
利用新聞數據與標註樣本優化客戶情緒識別與應答準確率
通過結構化輿情數據識別有害內容模式,完善內容審覈算法