GIF と発音します - Plato AiStream V2.1

プラトン再発行

フォロワー： 0

ホリデーシーズンが到来し、ハッカデイの筆記者が大西洋の嵐から身を守るために居心地の良い屋根裏に座っているので、彼女は自分の仕事の基本について考える時が来ました。ライティング、スペル、英語。アメリカ人とイギリス人の英語の綴りはなぜ違うのかなどは重要ですが、おそらくハッカデイ読者にとってはそれらすべてが最も重要です。それは「gif」ですか、それとも「jif」ですか？この文や綴りに関する冗談めいた文は、明らかなクリックベイトと思われるかもしれませんが、代わりに言語の研究への入り口となります。言語の慣習はどのようにして決まるのでしょうか?また、慣習を気にしすぎるべきでしょうか?

学校で読んだことをすべて信じないでください

1004年のアメリカの教室の写真 — ここで学んだことすべてを保持する価値があるわけではありません。ハリソン・キーリー 4.0てCC.

私たちは何かを学ぶために学校に送られています。その間、毎年、次々と大人たちが私たちの頭に事実を詰め込もうとするため、私たちは自由を奪われています。その中には面白いと思う部分もあれば、そうでない部分もありますが、ほとんどの部分では自分で考えることを妨げられ、代わりに一定のカリキュラムを丸暗記することが求められます。

したがって、作家は英語が常に進化する言語であり、それによって学校が課した人為的な制限を打ち破ることができるということを自分で発見しなければならない一方で、あまりにも多くの人が言語の欄干よりも上に頭を置くことを恐れ続けている。

その結果、ルールからの逸脱と認識されたものは、その言語で行動することを恐れる人々によって飛びつき、私たちは戦うべき独自の言語聖戦さえ見つけます。上で述べた「gif」と「jif」は良い例です。ほとんどの人がそう言っているので、硬い「G」で発音するか、それとも「J」のように発音するかは、それほど重要ですか？ファイル形式の作成者がそう言ったからですか？そうではありません。なぜなら、英語は教科書を書く人の手によってではなく、それを話す人の手によって進化する言語だからです。

しかし、残念なことに、今はまだ喜ぶべき時ではありません。たとえこれらのルールの一部が時代とともに変化する可能性があるとしても、それはすべての人にとって無料ではないからです。言語は相互に理解できるものでなければならず、途中で簡単に作り上げることはできません。専門家は、いわゆる記述的アプローチを採用しており、言語の使い方を禁止するのではなく、言語の使い方を教えてくれます。 すべき それを使っていること。彼らは、大規模なコーパス、テキスト本体の統計分析を通じてこれを行い、どの形式が最も注目を集めているかを確認します。ここが興味深いところです。大規模な言語分析を行うと、よく知っていると思っていた主題について、知らなかったことを知ることができるからです。

なぜ私は計算言語学の発明者ではなかったのか

USB ハードドライブエンクロージャの上に置かれた Raspberry Pi モデル b — この埃っぽい Raspberry Pi とハードディスクは、約 10 年間テレビの後ろに置かれ、RSS フィードからのテキストを処理していました

私が言語分析を初めて知ったのは約 15 年前、非常に大規模な Web サイトの検索エンジンの可視性を向上させることに取り組んでいたときでした。これは当時の怪しい検索エンジン操作の危険な煙と鏡の世界ではなく、代わりにサイトのコンテンツを大幅に改善し、要するに人間と検索エンジンの両方にとってもっと興味深いものにするためにそこにいたのです。この取り組みでは、ちょっとしたテキスト分析が非常に役に立ちます。テキストをラングリングするためのいくつかの単純な PHP スクリプトが、いつの間にか完全なスイートになっていました。

私はそれがすでに分野であるとは知らずに、計算言語学の主題全体を自分で発明しました。今となってはその仕事が笑えるほど非効率であることを知っていますが、それは成果をもたらし、私とサイト所有者がどこで何をしているのかを知るのに役立ちました。間違ってた。

言語分析に興味を持ったので、それは長年にわたって私にとって心に残るプロジェクトの 1 つになりました。興味が増減するたびに時々戻ってきて、私のオリジナルのスイートがさらに大きく成長しました。より有用。それほど難しいことは何もないので、それについてここで書くのがポイントです。私にそれができるなら、あなたにもできるはずです。ですから、それを説明することに挑戦する価値があります。

分析用のテキストのコーパスを構築するには、まずテキストから始める必要があります。私は言語と同じくらい時系列データに特に興味があったので、見つけられる限り多くの RSS フィードをソースとして利用しました。これにより、分析に追加する新しいテキストが際限なく供給され、私の主力製品は、大きな USB ハードドライブを備えた Raspberry Pi で、静かに 1 日の一部をストーリーの取得と処理に費やしています。

新しく取得したテキストに直面したら、最初のステップは何でしょうか?何よりもまず、無関係な HTML と Web サイトの不要なものを取り除きます。これは、Lynx にすべての面倒な作業を行う -dump コマンドラインオプションがあることを発見するまで、ルールの大きな煩わしさでした。次に、句点や疑問符などの文の区切り文字で分割し、単語ごとに文を配列に分割します。その後、それを 1 語ずつ確認し、見つけたものをデータストアに処理します。

10 億分の 1 語を素早く取り出すにはどうすればよいでしょうか?

数千のデータポイントがある場合、データストレージに関しては多くのオプションがあります。たとえば SQL データベースは素晴らしいアイデアです。しかし、コーパスは巨大なサイズに成長し、通常の保存方法ではすぐに取り残されてしまいます。数十億の単語インスタンスを処理できる素晴らしいソフトウェアがあるかもしれませんが、私はそれを見つけられなかったので、ファイルシステムに組み込まれたものを選択しました。ファイルシステムのパスをクエリとして使用し、パスを入力するだけでクエリできる単語のディレクトリツリーを作成します。

2014 年初めの英国のニュースにおける「支出」と「削減」の出来事のグラフ — たくさんの小さな JSON ファイルで非常に迅速にグラフを作成できます

したがって、文中の単語を段階的に確認するとき、私はその頻度と連語、つまり一緒に現れる単語に興味を持ちます。したがって、単語ごとに、その出現を記録するための JSON ファイルを含むディレクトリを作成し、そのディレクトリ内に、対応する JSON ファイルを含む次の単語のサブディレクトリを作成します。したがって、たとえば、/neil/ ディレクトリ内の JSON を開いて「Neil」という単語の人気度を調べたり、/neil/armstrong/ で「Neil Armstrong」というフレーズの人気度を調べたりすることができます。 /neil/armstrong/ と /neil/young/ の両方を調べることで、ニールアームストロングとヤングの相対的な出現を比較することもできました。このファイルシステムアプローチの良い点は、サーバー側の処理スクリプトが PHP のままで非常にシンプルであり、クライアントはファイルシステムからすべての JSON をリアルタイムで取得するブラウザーの Javascript にすることができることです。

マウスをクリックするだけで数十億語の英語を分析できる利点は、フレーズのどれがより適切であるか、一時的なフレーズが実際にどれほど人気があるか、さらには次のような著名人の相対的な人気さえも簡単に確認できることです。政治家。それは、他人の言うことに依存することなく、自分自身の言語的真実を検証するツールを持っているようなもので、私の仕事においては非常に役立ちます。もちろん欠点もあります。たとえば、何百万ものサブディレクトリと小さな JSON ファイルからなるツリーを扱う作業は非常に面倒になります。中規模のデータ構造の tarball を作成するには数日かかります。つまり、tarball を新しいディスクに移動するには、ある程度の計画が必要です。

これは、Hackaday で個人プロジェクトについて説明するのに通常のやり方ではなかったかもしれませんが、これには私のハードウェア作品と同じくらい開発時間と技術的進化が含まれています。私の足跡をたどりたいのであれば、古い PHP と Javascript の整形していない混乱を公開するのは恥ずかしいと思いますが、その機能が上記でかなり詳しく説明されているため、ほとんどの人がそれを作成できると思います。あなたがそれに心を向ければ、あなた自身。そうでないとしても、この記事でコーパスアナライザーがどのように機能し、知らなかったことを教えてくれるのかについて理解していただければ幸いです。また、学校の先生の言うことをすべて聞かないようにという私のアドバイスに従っていただけると思います。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://hackaday.com/2024/01/02/its-pronounced-gif/

タイムスタンプ： 2024 年 1 月 2 日

タイムスタンプ： 2023 年 4 月 5 日

GIFと発音します

プラトン再発行

学校で読んだことをすべて信じないでください

なぜ私は計算言語学の発明者ではなかったのか

10 億分の 1 語を素早く取り出すにはどうすればよいでしょうか?

より多くのハッカデイ

DEC Rainbow 100 の RAM 拡張の構築

Intel MacBook をバッテリーなしで動作させるハック

シンプルな量産ブラケットのおかげで、より優れた 3D プリントが実現

カスタムCNCダストカバーをDIYする3つの方法

ブロードキャストモニター用Wiiターン拡張カード

このブラウン管は持ち運びに便利です

日時計コレクションは 2D プリント

メカニカルキーボードはマウスでもあります

Python の For ループをハッキングする

より良いレーザーカット: カーフを知る

メガヘックスはあなたにロボ・アラクノフォビアを与える

RP2040 と 5V ロジック – 親友? このFX9000Pが確認！

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

学校で読んだことをすべて信じないでください

なぜ私は計算言語学の発明者ではなかったのか

10 億分の 1 語を素早く取り出すにはどうすればよいでしょうか?

より多くの ハッカデイ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くのハッカデイ