最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

介紹 SafeCoder 解決方案服務

2023-08-30 21:12 作者:HuggingFace  | 我要投稿

今天這篇推文,我們打算給自己打一波“廣告”,向大家隆重介紹 SafeCoder—— 一款專為企業(yè)打造的代碼助手解決方案。

SafeCoder 旨在成為你完全合規(guī)且自托管的結對編程工程師,從而釋放企業(yè)的軟件開發(fā)生產力。用營銷話術來講就是:“你自己的本地 GitHub Copilot”。

在深入探討之前,我們先簡單了解一下 SafeCoder:

  • SafeCoder 不是一個模型,而是一個完整的端到端商業(yè)解決方案

  • SafeCoder 以安全及隱私為核心原則 - 代碼在訓練或推理過程中永遠不會離開 VPC(Virtual Private Cloud,虛擬私有云)

  • SafeCoder 專為客戶在自己的基礎設施上自行托管而設計

  • SafeCoder 旨在讓客戶真正擁有自己的代碼大語言模型

為何選擇 SafeCoder?

基于 LLM 的代碼助理解決方案(如 GitHub Copilot)正在掀起巨大的生產力提升浪潮。對于企業(yè)來說,這使得它們能夠用公司自己的代碼庫去調整代碼大模型從而創(chuàng)建出專屬于自己的代碼大模型以提高代碼補全的可靠性及相關性,從而進一步提高生產力。一個例子是,據 Google 報告,其內部的 LLM 代碼助理在基于內部代碼庫訓練后,代碼補全接受率提高到了 25-34%。

然而,依靠閉源代碼大模型來創(chuàng)建內部代碼助理會讓公司面臨合規(guī)及安全問題。首先,在訓練期間,在內部代碼庫上微調閉源代碼大模型需要將此代碼庫向第三方公開。其次,在推理過程中,經過微調的代碼大模型可能會在推理過程中“泄漏”其訓練數據集中的代碼。為了合規(guī),企業(yè)需要在自己的基礎設施上部署微調過的代碼大模型 - 這對于閉源 LLM 來說是不可能的。

借助 SafeCoder,Hugging Face 可以幫助客戶構建自己的代碼大模型,使得客戶可以最先進的庫,在其私有代碼庫上微調最先進的開放模型,而無需與 Hugging Face 或任何其他第三方共享數據。通過 SafeCoder,Hugging Face 會提供容器化、硬件加速的代碼大模型推理解決方案,由客戶直接在其信任的、安全的基礎設施上部署,從而使得整個代碼輸入和補全過程無需離開客戶自己的安全 IT 環(huán)境。

從 StarCoder 到 SafeCoder

SafeCoder 解決方案的核心是 BigCode 項目訓出來的 StarCoder 系列代碼大模型。BigCode 項目是一個由 Hugging Face、ServiceNow 及開源社區(qū)共同合作完成的開源項目。

StarCoder 模型是企業(yè)自托管解決方案的理想選擇,其優(yōu)勢如下:

  • 最先進的代碼補全效果 - 詳情可參閱 論文 及 多語言代碼評估排行榜。

  • 為推理性能而生:代碼級優(yōu)化的 15B 模型、可以減少內存占用的多查詢注意力(Multi-Query Attention,MQA)以及可將上下文擴展至 8192 個詞元的 Flash 注意力。

  • 基于 The Stack 數據集訓練,這是一個來源符合道德準則的開源代碼數據集,其中僅包含可商用的許可代碼,且從一開始就包含了允許開發(fā)人員自主將其代碼庫退出的機制,此外我們還對其進行了大量的 PII 刪除和代碼去重工作。

注意:雖然 StarCoder 是 SafeCoder 的靈感來源和首個基礎模型。但基于開源模型構建 LLM 解決方案的一個重要好處是它可以用上最新最好的開源模型,因此,將來 SafeCoder 不排除會基于其他類似的、可商用的、開源的、來源符合道德準則的公開透明的開源代碼數據集的基礎 LLM 進行微調。

核心原則之隱私和安全

對于任何公司而言,內部代碼庫都是其最重要、最有價值的知識產權。SafeCoder 的一個核心原則是,在訓練和推理過程中,任何第三方(包括 Hugging Face)永遠不會訪問到客戶內部代碼庫。

當客戶開始搭建 SafeCoder 方案時,Hugging Face 團隊會提供容器、腳本和示例,并與客戶攜手合作以對內部代碼庫數據進行選擇、提取、準備、復制、脫敏,最終生成訓練數據集,然后客戶就可以配置好 Hugging Face 提供的訓練容器并將其部署至自管基礎設施上。

到了部署階段,客戶會在自管基礎設施上部署 Hugging Face 提供的容器,并在其 VPC 內發(fā)布內部私有推理終端。這些容器可根據客戶自己的硬件環(huán)境進行相應配置,目前主要支持的硬件有:英偉達 GPU、AMD Instinct GPU、英特爾至強 CPU、AWS Inferentia2 以及 Habana Gaudi。

核心原則之合規(guī)

由于目前在全世界范圍內,圍繞機器學習模型和數據集的監(jiān)管框架仍在制定中,跨國公司需要確保其使用的解決方案能夠最大限度地降低法律風險。

數據源、數據治理、版權數據管理是其中最重要的幾個需考量的合規(guī)領域。在這些問題得到人工智能歐盟法案草案的廣泛認可之前,BigCode 的老表和靈感來源 BigScience 已在其在工作組中解決了這些問題,并因此 在斯坦福 CRFM 研究中被評為最合規(guī)的基礎模型提供商。

BigCode 發(fā)揚了 BigScience 的工作,其以合規(guī)為核心原則構建 The Stack 數據集并圍繞這個數據集實施了一系列新技術。例如對可商用許可證進行過濾、同意機制(開發(fā)人員可以 輕松地查到他們的代碼是否在數據集中并要求將其代碼從數據集中剔除)、大量的用于審查 源代碼數據的文檔和工具,以及數據集改進方案(如 數據去重、PII 刪除)。

所有這些努力都大大降低了 StarCoder 模型用戶和 SafeCoder 客戶的法律風險。對于 SafeCoder 用戶來說,這些工作最終還形成了一個合規(guī)性功能:當軟件開發(fā)人員用 SafeCoder 進行代碼補全時,可將其與 The Stack 數據集進行比對,以便知道生成的代碼是否與源數據集中的某些現有代碼匹配,以及對應代碼的許可證是什么。客戶甚至可以指定許可證白名單并向用戶展示在白名單內的代碼。

產品說明

SafeCoder 是一個完整的商業(yè)解決方案,包括服務、軟件及相應的支持。

訓練你自己的 SafeCoder 模型

StarCoder 的訓練數據中有 80 多種編程語言,其在 多個測試基準 上名列前茅。為了使 SafeCoder 客戶能得到更好、更有針對性的代碼建議,用戶可以選擇讓我們從訓練階段開始參與,此時 Hugging Face 團隊直接與客戶團隊合作,指導他們準備并構建訓練代碼數據集,并微調出他們自己的代碼生成模型,而無需將其代碼庫暴露給第三方或上傳到互聯網上。

最終生成的是一個適合客戶的編程語言、標準及實踐的模型。通過這個過程,SafeCoder 客戶可以學習該流程并構建一個用于創(chuàng)建和更新自有模型的流水線,確保不被供應商鎖定,并保持對其 AI 功能的控制力。

部署 SafeCoder

在部署階段,SafeCoder 客戶和 Hugging Face 一起設計并組建能支持所需并發(fā)性的最佳基礎設施,從而提供出色的開發(fā)者體驗。然后,Hugging Face 據此構建出 SafeCoder 推理容器,這些容器經過硬件加速并針對吞吐進行了優(yōu)化。最后,由客戶部署在自己的基礎設施上。

SafeCoder 推理支持各種硬件,為客戶提供廣泛的選擇:英偉達 Ampere GPU、AMD Instinct GPU、Habana Gaudi2、AWS Inferentia 2、英特爾至強 Sapphire Rapids CPU 等。

使用 SafeCoder

一旦部署了 SafeCoder 并在客戶 VPC 中上線了其推理端點,開發(fā)人員就可以安裝兼容的 SafeCoder IDE 插件,以便在工作時獲取代碼建議。當前,SafeCoder 支持流行的 IDE,包括 VSCode、IntelliJ,同時我們的合作伙伴還在開發(fā)更多插件,敬請期待。

如何獲取 SafeCoder 解決方案?

我們在 VMware Explore 大會上宣布與 VMware 合作推出了 SafeCoder,并向 VMware 企業(yè)客戶提供 SafeCoder。與 VMware 合作有助于確保 SafeCoder 在客戶的 VMware Cloud 基礎設施上成功部署 - 無論客戶更青睞云、本地還是混合基礎設施。除了 SafeCoder 本身外,VMware 還發(fā)布了一個 參考架構,其中包含了一些示例代碼,可以幫助用戶用最短時間在 VMware 基礎設施上部署和運營 SafeCoder 從而創(chuàng)造價值。

VMware 的私有 AI 參考架構使組織能夠輕松快速地利用流行的開源項目(例如 Ray 和 kubeflow)圍繞其私有數據集部署 AI 服務。同時,通過與 Hugging Face 合作,組織還能保持利用最新技術及以及最佳開源模型的靈活性。這一切都無需在總擁有成本或性能上進行權衡。

我們與 Hugging Face 圍繞 SafeCoder 進行的合作與 VMware 的目標完美契合,即讓客戶能夠選擇解決方案,同時維護其隱私及其對業(yè)務數據的控制。事實上,我們已經在內部運行 SafeCoder 幾個月了,并且已經看到了出色的結果。最重要的是,我們與 Hugging Face 的合作才剛剛開始,我很高興能夠將我們的解決方案帶給全球數十萬客戶?!?/p>

VMware AI 研究院副總裁 Chris Wolf 如是說。點擊 此處 可詳細了解私有 AI 和 VMware 在這一新興領域的差異化功能。

如果你對在貴公司部署 SafeCoder 感興趣,請通過下面電子郵件聯系我們:
api-enterprise@huggingface.co
請在郵件標題里加入?SafeCoder關鍵字,我們的團隊將聯系你并與你討論需求!

英文原文:https://hf.co/blog/safecoder

原文作者:Jeff Boudier,Philipp Schmid

譯者: Matrix Yao (姚偉峰),英特爾深度學習工程師,工作方向為 transformer-family 模型在各模態(tài)數據上的應用及大規(guī)模模型的訓練推理。

介紹 SafeCoder 解決方案服務的評論 (共 條)

分享到微博請遵守國家法律
台东县| 石河子市| 焦作市| 孙吴县| 商都县| 苍溪县| 淳化县| 河北省| 旬邑县| 包头市| 曲沃县| 乌鲁木齐县| 民权县| 县级市| 苏尼特左旗| 额尔古纳市| 修水县| 荆州市| 新津县| 哈尔滨市| 札达县| 陇南市| 禄丰县| 塔河县| 五大连池市| 乌什县| 元朗区| 宜昌市| 建昌县| 通辽市| 个旧市| 河津市| 崇阳县| 金湖县| 应用必备| 江源县| 华安县| 海林市| 江门市| 晴隆县| 裕民县|