日本語AI文体の統計分析プロジェクト「humanizer-jp」を公開
AIが書いた日本語の「らしさ」を、感覚ではなくデータで捉える公開プロジェクトです。
ユアブライト株式会社(本社:東京都新宿区西新宿1-26-2 新宿野村ビル32階、代表取締役CEO:山下 美和)は、日本語AI文体の特徴を統計的に分析し、文章改善に活用するオープンソースプロジェクト 「humanizer-jp」 をGitHubにて公開しました。
humanizer-jpは、人間が書いた日本語記事1,105本と、同じテーマでAIが生成した日本語記事1,105本を比較し、AIらしさとして現れやすい文体上の特徴を抽出したプロジェクトです。形態素n-gram、文末表現、文埋め込みによる意味クラスタリング、計量文体統計を組み合わせ、主要な発見は複数の観点から再測定しています。
公開の背景
生成AIの業務利用が広がる一方で、AIが出力する日本語には、読み手が「AIっぽい」と感じる一定の傾向があります。従来は、箇条書きが多い、表現が整いすぎている、説明が無難といった感覚的な評価にとどまりがちでした。
humanizer-jpでは、そうした印象を定量的に検証するため、AI文章と人間文章を同じテーマで比較できるコーパスを作成し、語彙、文末、意味、文長のばらつきなどを分析しました。その結果、見た目の装飾よりも、文の長さやリズムの均一さが強い特徴として現れることを確認しました。
主な内容
- 人間記事1,105本とAI生成記事1,105本を比較した日本語文体コーパス
- 形態素n-gram、文末表現、文埋め込み、計量文体統計による分析
- 「短く、長さのそろった文」を中心としたAI文体の特徴抽出
- AIっぽさを抑えるClaude Code向けスキル「humanize-jp」
- 文長CV、句点・読点密度、ひらがな率、特徴語を確認する診断スクリプト
活用シーン
humanizer-jpは、以下のような用途を想定しています。
- 生成AIで作成した日本語文書の文体改善
- プレスリリース、記事、提案書、社内文書の自然な表現への調整
- AIライティング品質のレビュー観点づくり
- 日本語文体分析やAI生成文の研究・検証
リポジトリ
分析結果、検証レポート、Claude Code向けスキル、診断スクリプトは、以下のGitHubリポジトリで公開しています。
https://github.com/yourbright-jp/humanizer-jp
AI導入支援との位置づけ
ユアブライトは、生成AIを単発のツール導入で終わらせず、社内業務の設計、実装、定着までを支援しています。AIの出力を業務で使える品質に近づけるには、モデルやプロンプトだけでなく、文章の評価軸やレビュー手順も重要です。
humanizer-jpは、AIが作る日本語を現場で扱いやすくするための実践知を、公開可能な形で整理した取り組みです。生成AIを活用した文書作成、社内ナレッジ整備、AIエージェント導入をご検討の企業様は、以下よりお問い合わせください。
AI事業ページ:
https://yourbright.co.jp/ai/
お問い合わせフォーム:
https://yourbright.co.jp/contact/
会社概要
- 会社名:ユアブライト株式会社
- 代表者:代表取締役CEO 山下 美和
- 設立:2005年11月
- 資本金:1,000万円
- 本社所在地:東京都新宿区西新宿1-26-2 新宿野村ビル32階
- Webサイト: https://yourbright.co.jp/
- 電話番号:03-6908-6143
