ホリデーシーズンが到来し、ハッカデイの筆記者が大西洋の嵐から身を守るために居心地の良い屋根裏に座っているので、彼女は自分の仕事の基本について考える時が来ました。ライティング、スペル、英語。アメリカ人とイギリス人の英語の綴りはなぜ違うのかなどは重要ですが、おそらくハッカデイ読者にとってはそれらすべてが最も重要です。それは「gif」ですか、それとも「jif」ですか?この文や綴りに関する冗談めいた文は、明らかなクリックベイトと思われるかもしれませんが、代わりに言語の研究への入り口となります。言語の慣習はどのようにして決まるのでしょうか?また、慣習を気にしすぎるべきでしょうか?
学校で読んだことをすべて信じないでください
私たちは何かを学ぶために学校に送られています。その間、毎年、次々と大人たちが私たちの頭に事実を詰め込もうとするため、私たちは自由を奪われています。その中には面白いと思う部分もあれば、そうでない部分もありますが、ほとんどの部分では自分で考えることを妨げられ、代わりに一定のカリキュラムを丸暗記することが求められます。
したがって、作家は英語が常に進化する言語であり、それによって学校が課した人為的な制限を打ち破ることができるということを自分で発見しなければならない一方で、あまりにも多くの人が言語の欄干よりも上に頭を置くことを恐れ続けている。
その結果、ルールからの逸脱と認識されたものは、その言語で行動することを恐れる人々によって飛びつき、私たちは戦うべき独自の言語聖戦さえ見つけます。上で述べた「gif」と「jif」は良い例です。ほとんどの人がそう言っているので、硬い「G」で発音するか、それとも「J」のように発音するかは、それほど重要ですか?ファイル形式の作成者がそう言ったからですか?そうではありません。なぜなら、英語は教科書を書く人の手によってではなく、それを話す人の手によって進化する言語だからです。
しかし、残念なことに、今はまだ喜ぶべき時ではありません。たとえこれらのルールの一部が時代とともに変化する可能性があるとしても、それはすべての人にとって無料ではないからです。言語は相互に理解できるものでなければならず、途中で簡単に作り上げることはできません。専門家は、いわゆる記述的アプローチを採用しており、言語の使い方を禁止するのではなく、言語の使い方を教えてくれます。 すべき それを使っていること。彼らは、大規模なコーパス、テキスト本体の統計分析を通じてこれを行い、どの形式が最も注目を集めているかを確認します。ここが興味深いところです。大規模な言語分析を行うと、よく知っていると思っていた主題について、知らなかったことを知ることができるからです。
なぜ私は計算言語学の発明者ではなかったのか
私が言語分析を初めて知ったのは約 15 年前、非常に大規模な Web サイトの検索エンジンの可視性を向上させることに取り組んでいたときでした。これは当時の怪しい検索エンジン操作の危険な煙と鏡の世界ではなく、代わりにサイトのコンテンツを大幅に改善し、要するに人間と検索エンジンの両方にとってもっと興味深いものにするためにそこにいたのです。この取り組みでは、ちょっとしたテキスト分析が非常に役に立ちます。テキストをラングリングするためのいくつかの単純な PHP スクリプトが、いつの間にか完全なスイートになっていました。
私はそれがすでに分野であるとは知らずに、計算言語学の主題全体を自分で発明しました。今となってはその仕事が笑えるほど非効率であることを知っていますが、それは成果をもたらし、私とサイト所有者がどこで何をしているのかを知るのに役立ちました。間違ってた。
言語分析に興味を持ったので、それは長年にわたって私にとって心に残るプロジェクトの 1 つになりました。興味が増減するたびに時々戻ってきて、私のオリジナルのスイートがさらに大きく成長しました。より有用。それほど難しいことは何もないので、それについてここで書くのがポイントです。私にそれができるなら、あなたにもできるはずです。ですから、それを説明することに挑戦する価値があります。
分析用のテキストのコーパスを構築するには、まずテキストから始める必要があります。私は言語と同じくらい時系列データに特に興味があったので、見つけられる限り多くの RSS フィードをソースとして利用しました。これにより、分析に追加する新しいテキストが際限なく供給され、私の主力製品は、大きな USB ハード ドライブを備えた Raspberry Pi で、静かに 1 日の一部をストーリーの取得と処理に費やしています。
新しく取得したテキストに直面したら、最初のステップは何でしょうか?何よりもまず、無関係な HTML と Web サイトの不要なものを取り除きます。これは、Lynx にすべての面倒な作業を行う -dump コマンド ライン オプションがあることを発見するまで、ルールの大きな煩わしさでした。次に、句点や疑問符などの文の区切り文字で分割し、単語ごとに文を配列に分割します。その後、それを 1 語ずつ確認し、見つけたものをデータ ストアに処理します。
10 億分の 1 語を素早く取り出すにはどうすればよいでしょうか?
数千のデータ ポイントがある場合、データ ストレージに関しては多くのオプションがあります。たとえば SQL データベースは素晴らしいアイデアです。しかし、コーパスは巨大なサイズに成長し、通常の保存方法ではすぐに取り残されてしまいます。数十億の単語インスタンスを処理できる素晴らしいソフトウェアがあるかもしれませんが、私はそれを見つけられなかったので、ファイルシステムに組み込まれたものを選択しました。ファイルシステムのパスをクエリとして使用し、パスを入力するだけでクエリできる単語のディレクトリ ツリーを作成します。
したがって、文中の単語を段階的に確認するとき、私はその頻度と連語、つまり一緒に現れる単語に興味を持ちます。したがって、単語ごとに、その出現を記録するための JSON ファイルを含むディレクトリを作成し、そのディレクトリ内に、対応する JSON ファイルを含む次の単語のサブディレクトリを作成します。したがって、たとえば、/neil/ ディレクトリ内の JSON を開いて「Neil」という単語の人気度を調べたり、/neil/armstrong/ で「Neil Armstrong」というフレーズの人気度を調べたりすることができます。 /neil/armstrong/ と /neil/young/ の両方を調べることで、ニール アームストロングとヤングの相対的な出現を比較することもできました。このファイル システム アプローチの良い点は、サーバー側の処理スクリプトが PHP のままで非常にシンプルであり、クライアントはファイル システムからすべての JSON をリアルタイムで取得するブラウザーの Javascript にすることができることです。
マウスをクリックするだけで数十億語の英語を分析できる利点は、フレーズのどれがより適切であるか、一時的なフレーズが実際にどれほど人気があるか、さらには次のような著名人の相対的な人気さえも簡単に確認できることです。政治家。それは、他人の言うことに依存することなく、自分自身の言語的真実を検証するツールを持っているようなもので、私の仕事においては非常に役立ちます。もちろん欠点もあります。たとえば、何百万ものサブディレクトリと小さな JSON ファイルからなるツリーを扱う作業は非常に面倒になります。中規模のデータ構造の tarball を作成するには数日かかります。つまり、tarball を新しいディスクに移動するには、ある程度の計画が必要です。
これは、Hackaday で個人プロジェクトについて説明するのに通常のやり方ではなかったかもしれませんが、これには私のハードウェア作品と同じくらい開発時間と技術的進化が含まれています。私の足跡をたどりたいのであれば、古い PHP と Javascript の整形していない混乱を公開するのは恥ずかしいと思いますが、その機能が上記でかなり詳しく説明されているため、ほとんどの人がそれを作成できると思います。あなたがそれに心を向ければ、あなた自身。そうでないとしても、この記事でコーパス アナライザーがどのように機能し、知らなかったことを教えてくれるのかについて理解していただければ幸いです。また、学校の先生の言うことをすべて聞かないようにという私のアドバイスに従っていただけると思います。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://hackaday.com/2024/01/02/its-pronounced-gif/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 130
- 2014
- 300
- 400
- 600
- a
- 私たちについて
- それについて
- 上記の.
- 加えます
- 大人
- アドバイス
- 恐れて
- 後
- 前
- 同様に
- すべて
- 沿って
- 並んで
- 既に
- また
- 驚くべき
- アメリカ
- アメリカ人
- an
- 分析
- および
- どれか
- 何でも
- 現れる
- アプローチ
- アプローチ
- 適切な
- です
- アームストロング
- 周りに
- 配列
- 人工の
- AS
- At
- 試み
- 離れて
- b
- バック
- の基礎
- BE
- 美容
- なぜなら
- になる
- になる
- き
- 背後に
- 信じる
- 10億
- 億
- ビット
- ボディ
- 本
- 両言語で
- 境界
- ブレーク
- ブラウザ
- ビルド
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- 缶
- できる
- これ
- チェック
- 教室
- クリック
- clickbait
- クライアント
- 来ます
- comes
- 比較します
- 計算的
- 検討
- 見なさ
- 絶えず
- コンテンツ
- コントラスト
- 表記
- 対応する
- 可能性
- カップル
- ここから
- クラフト
- 作ります
- 作成
- クリエイター
- データ
- データポイント
- データストレージ
- データベース
- 中
- 日
- 十年
- 決めます
- 配信する
- ダウン
- 記載された
- 記述
- 開発
- DID
- 異なります
- 難しい
- 落胆した
- 発見する
- 発見
- do
- ありません
- すること
- ドント
- 欠点
- ドライブ
- 間に
- e
- 早い
- 簡単に
- ほかに
- エンジン
- 英語
- さらに
- あらゆる
- すべてのもの
- 進化
- 進化
- 例
- 予想される
- 直面して
- 事実
- 遠く
- 少数の
- フィールド
- 戦い
- フィギュア
- File
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- 固定の
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- フォーム
- 発見
- 無料版
- から
- フル
- function
- 獲得
- GIF
- 与えられた
- Go
- 行って
- 商品
- だ
- グラフ
- 素晴らしい
- 成長した
- 育ちます
- 持っていました
- ハンドル
- ハンドリング
- ハンド
- ハード
- ハード·ドライブ
- Hardware
- 持ってる
- 持って
- 頭
- ヘビー
- 重いもの
- 助けます
- 彼女の
- こちら
- 開催
- 休日
- 希望
- 認定条件
- HTML
- HTTPS
- 巨大な
- すごく
- 人間
- i
- アイデア
- if
- 重要
- 課さ
- 改善します
- 改善
- in
- 事件
- 含ま
- 入ってくる
- 信じられないほど
- 非効率的な
- 内部
- 洞察力
- インスタンス
- を取得する必要がある者
- 関心
- 興味がある
- 興味深い
- に
- 概要
- 発明された
- IT
- ITS
- JavaScriptを
- JPG
- JSON
- ただ
- 知っている
- 知っている
- 言語
- 大
- LEARN
- less
- 自由
- フェイスリフト
- ような
- LINE
- 言語学
- 少し
- 探して
- たくさん
- オオヤマネコ
- 大多数
- make
- 作成
- 操作
- 多くの
- 多くの人々
- 問題
- 事態
- 最大幅
- 五月..
- me
- 意味
- ミディアム
- 言及した
- かもしれない
- 何百万
- マインド
- 他には?
- 最も
- マウス
- 移動する
- ずっと
- 互いに
- my
- 自分
- 必要
- 決して
- 新作
- 新しく
- ニュース
- nice
- いいえ
- 通常の
- 何も
- 今
- 明白
- 発生
- of
- 古い
- on
- ONE
- の
- 開設
- オプション
- オプション
- or
- オリジナル
- その他
- その他
- 私たちの
- 自分自身
- が
- 自分の
- 所有者
- 部
- 特に
- 部品
- path
- パス
- のワークプ
- 知覚される
- おそらく
- 個人的な
- PHP
- 画像
- ピース
- 計画
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレンティ
- ポイント
- ポイント
- 政治家
- 人気
- 人気
- かなり
- 流行
- プロセス
- 処理
- 専門家
- プロジェクト
- プロジェクト(実績作品)
- 明白な
- 保護された
- 提供
- 公共
- 置きます
- クエリ
- 質問
- すぐに
- 静かに
- 非常に
- ラズベリー
- ラズベリーパイ
- 読む
- 読者
- リアル
- への
- 本当に
- 記録
- 相対
- 解放
- 頼る
- 残る
- 必要
- 結果
- RSS
- ルール
- 前記
- 言う
- 規模
- 学校
- スクリプト
- スクリプト
- を検索
- 検索エンジン
- シーズン
- 送信
- 文
- セッションに
- ショート
- すべき
- 簡単な拡張で
- 単に
- ウェブサイト
- 座っ
- 座っている
- サイズ
- 小さい
- So
- ソフトウェア
- 一部
- 何か
- ソース
- 話す
- 綴り
- split
- SQL
- start
- 統計的
- 滞在した
- 手順
- まだ
- 停止する
- ストレージ利用料
- 店舗
- ストーリー
- 嵐
- ストリップ
- 構造
- 勉強
- テーマ
- そのような
- スイート
- 供給
- 取る
- 取り
- キー
- 技術の
- 言う
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- 基礎
- アプリ環境に合わせて
- それら
- 自分自身
- その後
- そこ。
- ボーマン
- 彼ら
- もの
- 物事
- 考える
- 考え
- この
- それらの
- しかし?
- 考え
- 千
- 介して
- 従って
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- 言われ
- あまりに
- 取った
- top
- 牽引力
- ツリー
- 真実
- オン
- tv
- Uk
- 英国のニュース
- まで
- に
- us
- USB
- つかいます
- 中古
- いつもの
- バージョン
- 対
- 非常に
- 視認性
- 衰退
- ました
- 仕方..
- we
- ウェブサイト
- WELL
- した
- この試験は
- いつ
- かどうか
- which
- while
- 誰
- 全体
- なぜ
- 以内
- 無し
- Word
- 言葉
- 仕事
- ワーキング
- 作品
- 世界
- 価値
- でしょう
- 書きます
- 作家
- 書き込み
- 間違った
- 年
- 年
- 貴社
- 若い
- あなたの
- あなた自身
- ゼファーネット