同形異義字與易混淆字元轉換器

同形字轉換器 — 偵測並清理 Unicode 易混淆字元

轉換是盡力而為:映射的易混淆項和 NFKC 折疊是確定性的,但某些合法的 Unicode 不會被標記。

您的文字

貼上或鍵入 — 結果會在您鍵入時更新(對於長輸入會稍微去抖)。

已掃描 0 個字元
0 個可疑項目
保留可讀的 Unicode
轉換方式
原文(可疑字元已標記)

原始視圖中的可疑字元帶有下劃線並標記為“可疑”。除了突出顏色。

清潔輸出
人物分析

尚無可分析的字元。在上面貼上文字以查看同形文字和易混淆的細分。

偵測視覺上易混淆的 Unicode 字元,轉為較安全的 ASCII 或正規化 Unicode。瀏覽器本機處理。

這個同形文字轉換器的作用

同形文字轉換器可偵測看起來像普通拉丁字母或數字(容易混淆的字元)的 Unicode 字符,並顯示它們是如何標準化或替換的。您也可以執行生成同形文字以從純 ASCII 建立確定性的類似欺騙的字串以進行測試。這個免費的易混淆轉換器和 unicode 易混淆檢查器完全在您的瀏覽器中運行 - 將其用作 unicode 規範化工具、欺騙文字清理器或相似字元轉換器以確保安全和審核。

如何使用這個 unicode 標準化工具

  1. 在輸入區域中貼上或鍵入要檢查的文字。
  2. 選擇“保留可讀 Unicode”、“嚴格 ASCII 回退”或“生成同形文字”,具體取決於您是要清理貼上的文字還是從 ASCII 建立測試樣本。
  3. 並排比較原始文件(帶有亮點)和輸出;查看分析表以了解程式碼點和原因。
  4. 使用“複製輸出文字”來複製結果,或使用“清除”來重設。

轉換模式:可讀 Unicode vs unicode 到 ASCII vs 生成

  • 保留可讀 Unicode 首先套用捆綁的易混淆映射,然後在變更字元時套用 NFKC 規範化。輸出可能仍包含未標記的非 ASCII 字母。
  • 嚴格 ASCII 回退使用相同的偵測規則,但偏好地圖中的 ASCII 替換。不在地圖中的角色將保持原樣,除非 NFKC 對其進行更改;這種模式對於欺騙文字清理工作流程來說更嚴格、更好。
  • 產生同形文字從左到右遍歷您的輸入,並將每個 ASCII 字母或數字替換為來自相同捆綁映射的單一確定性同形文字(清理的逆過程)。沒有選擇替代的字元仍保留 ASCII。

這裡什麼才算可疑

在清理模式下,當某個字元已知與定義的替換易混淆時,或當 NFKC 規範化改變它時(例如全角數字),該字元將被標記。在生成模式下,「可疑」標記每個 ASCII 字母或數字被替換的位置。這不是完整的 unicode 安全審核——只是確定性規則。

常見用例

  • 檢查貼上字串中的欺騙性使用者名稱、網域或同形文字攻擊。
  • 對相似角色技巧的審核和信任與安全審查。
  • 開發人員在同形文字檢測器視圖旁邊調試編碼問題。

限制和安全注意事項

捆綁的地圖涵蓋了常見的西里爾字母、希臘字母和全角相似字母 - 並非所有 Unicode 都容易混淆。生成模式僅用於授權測試;不要用它來欺騙人們或繞過保護。結果是確定性的,而不是基於機器學習的風險評分。始終結合人工審核來做出高風險決策。

隱私

頁面載入後,所有偵測和轉換都在 JavaScript 中本地運行。沒有文字發送到伺服器進行處理。

常見問題解答

什麼是同形字?

同形文字是一種看起來像來自不同腳本或編碼的另一個字符的字符,例如類似於拉丁語“a”的西里爾文“а”。攻擊者在欺騙網域、使用者名稱和訊息中使用它們。該工具用代碼點和替換來顯示這些字元。

這與 Unicode 標準化有何不同?

Unicode 規範化(例如 NFKC)以標準方式折疊相容性和寬度變體。該工具將 NFKC 與一個小的明確易混淆映射相結合,以便您了解每個字元被標記的原因 — 這比普通的 unicode 標準化工具傳遞更有用。

嚴格的 ASCII 模式會改變合法的非英語文字嗎?

嚴格 ASCII 回退會取代捆綁的易混淆映射中出現的字元或 NFKC 下的變更。其他非 ASCII 字母保持不變。如果合法文字包含這些映射字符,則仍然可能會發生更改,因此請檢查分析清單。

我的文字會發送到伺服器嗎?

不會。頁面載入後,偵測和轉換僅使用 JavaScript。此易混淆轉換器不會上傳您的貼上進行分析。

這能抓住所有惡搞嗎?

不。覆蓋範圍是確定性的且基於地圖,而不是機器學習。它有助於常見的相似字元技巧,但並不是完整的安全審核。

生成同形文字模式有什麼作用?

它將輸入中的 ASCII 字母和數字替換為來自用於清理的相同捆綁映射的確定性相似值,這對於在授權環境中建立測試字串非常有用(例如審核 QA)。它不是為了模仿或繞過保護。