星期六, 24 5 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

Ruliad AI 發布 DeepThought-8B:一個基於 LLaMA-3.1 的新型小型語言模型,具備測試時計算擴展能力並提供透明推理

2024-12-07
in 機器學習與應用
0 0
0
Ruliad AI 發布 DeepThought-8B:一個基於 LLaMA-3.1 的新型小型語言模型,具備測試時計算擴展能力並提供透明推理
Share on FacebookShare on Twitter
Your Ad


Ruliad AI 發布了 Deepthought-8B-LLaMA-v0.01-alpha,專注於推理的透明性和控制。這個模型基於 LLaMA-3.1,擁有 80 億個參數,旨在提供與更大型模型相當的複雜問題解決能力,同時保持運行效率。

Deepthought-8B 以獨特的功能脫穎而出,旨在使 AI 的推理過程更容易理解。它的突出特點是透明的推理機制,決策過程中的每一步都會被記錄下來。這個功能確保用戶能夠跟隨模型的思考過程,並以結構化的 JSON 格式輸出。這種逐步推理增強了對其輸出的信任,並促進了需要清晰解釋的 AI 邏輯的應用整合。Deepthought-8B 的另一個特點是可編程的推理模式。與許多需要重新訓練以適應不同任務的模型不同,這個模型允許在不需要重新訓練的情況下自定義推理方法。這種靈活性使其適用於各種應用,從編碼任務到複雜的問題解決場景。此外,它在測試時的計算可擴展性確保了可以根據任務的複雜性調整推理深度,為用戶提供了多功能的工具來應對各種挑戰。

Deepthought-8B 在擁有 16GB 或更多 VRAM 的系統上高效運行,並支持像 Flash Attention 2 這樣的先進功能以提升性能。它的技術生態系統建立在廣泛使用的框架上,如 Python、PyTorch 和 Transformers 庫,讓開發者能夠輕鬆使用。模型中的每個推理鏈都包括問題理解、數據收集、分析、計算、驗證、得出結論和實施等階段。這些明確定義的步驟增強了模型的可用性,使其成為需要嚴謹邏輯工作流程的領域中的寶貴工具。

Deepthought-8B 在各種基準測試中表現出色,例如有效地處理編碼和數學任務。然而,它也有一些限制。複雜的數學推理、長上下文處理和邊界案例處理是模型需要改進的地方。承認這些限制反映了 Ruliad 在展示模型能力方面的透明度,增強了用戶的信任,並鼓勵對未來版本的建設性反饋。Ruliad 將 Deepthought-8B 定位為商業解決方案,並支持這一方法的許可條款。該模型附帶全面的支持選項,包括社交媒體和電子郵件聯繫,確保用戶能夠輕鬆獲得幫助。Deepthought-8B 的文檔包括詳細的安裝和使用指南。

安裝

pip install torch transformers

# 可選:安裝 Flash Attention 2 以獲得更好的性能

pip install flash-attn

使用

1. 首先,將你的 HuggingFace 令牌設置為環境變量:

export HF_TOKEN=your_token_here

export HF_HUB_ENABLE_HF_TRANSFER=1

2. 在你的 Python 代碼中使用模型:

from transformers import AutoModelForCausalLM, AutoTokenizer

import torch

# 初始化模型

model_name = “ruliad/deepthought-8b-llama-v0.01-alpha”

tokenizer = AutoTokenizer.from_pretrained(

model_name,

add_bos_token=False,

trust_remote_code=True,

padding=”left”,

torch_dtype=torch.bfloat16,

)

model = AutoModelForCausalLM.from_pretrained(

model_name,

torch_dtype=torch.bfloat16,

device_map=”auto”,

attn_implementation=”flash_attention_2″, # 如果未安裝 flash_attn,則使用 “eager”(或省略)

use_cache=True,

trust_remote_code=True,

)

3. 運行提供的示例腳本:

python deepthought_inference.py

總結來說,Deepthought-8B 擁有 80.3 億個參數,在推理任務中與更大型的 70B 模型相媲美,利用 JSON 結構化輸出和可自定義的推理路徑等先進功能。它能在僅有 16GB VRAM 的系統上運行,確保了可及性,而測試時計算的可擴展性則允許用戶根據任務的複雜性調整性能。在過去的一個月中,該模型的下載量超過 10,000 次,顯示出其實用性和相關性。

查看論文。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。如果你喜歡我們的工作,你一定會喜歡我們的電子報。別忘了加入我們的 60,000 多名機器學習 SubReddit。

🚨 [與我們合作]:‘下一期雜誌/報告 – 開源 AI 在生產中的應用’



新聞來源

本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!

Tags: DeepThought8B一個基於LLaMA3.1Ruliad發布的新型小型語言模型具備測試時計算擴展能力並提供透明推理
Previous Post

使用 Make.com 將任意 API 連接至超過 1000 個隱藏整合的指南

Next Post

藍星與Exotec合作推出「更智慧」的倉儲自動化系統 – 機器人與自動化新聞

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
藍星與Exotec合作推出「更智慧」的倉儲自動化系統 – 機器人與自動化新聞

藍星與Exotec合作推出「更智慧」的倉儲自動化系統 – 機器人與自動化新聞

Meta AI 剛剛開源了 Llama 3.3:一個新的 70B 多語言大型語言模型 (LLM)

Meta AI 剛剛開源了 Llama 3.3:一個新的 70B 多語言大型語言模型 (LLM)

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。