GIFと発音します

GIFと発音します

ソースノード: 3043181

ホリデーシーズンが到来し、ハッカデイの筆記者が大西洋の嵐から身を守るために居心地の良い屋根裏に座っているので、彼女は自分の仕事の基本について考える時が来ました。ライティング、スペル、英語。アメリカ人とイギリス人の英語の綴りはなぜ違うのかなどは重要ですが、おそらくハッカデイ読者にとってはそれらすべてが最も重要です。それは「gif」ですか、それとも「jif」ですか?この文や綴りに関する冗談めいた文は、明らかなクリックベイトと思われるかもしれませんが、代わりに言語の研究への入り口となります。言語の慣習はどのようにして決まるのでしょうか?また、慣習を気にしすぎるべきでしょうか?

学校で読んだことをすべて信じないでください

1004年のアメリカの教室の写真
ここで学んだことすべてを保持する価値があるわけではありません。ハリソン・キーリー 4.0てCC.

私たちは何かを学ぶために学校に送られています。その間、毎年、次々と大人たちが私たちの頭に事実を詰め込もうとするため、私たちは自由を奪われています。その中には面白いと思う部分もあれば、そうでない部分もありますが、ほとんどの部分では自分で考えることを妨げられ、代わりに一定のカリキュラムを丸暗記することが求められます。

したがって、作家は英語が常に進化する言語であり、それによって学校が課した人為的な制限を打ち破ることができるということを自分で発見しなければならない一方で、あまりにも多くの人が言語の欄干よりも上に頭を置くことを恐れ続けている。

その結果、ルールからの逸脱と認識されたものは、その言語で行動することを恐れる人々によって飛びつき、私たちは戦うべき独自の言語聖戦さえ見つけます。上で述べた「gif」と「jif」は良い例です。ほとんどの人がそう言っているので、硬い「G」で発音するか、それとも「J」のように発音するかは、それほど重要ですか?ファイル形式の作成者がそう言ったからですか?そうではありません。なぜなら、英語は教科書を書く人の手によってではなく、それを話す人の手によって進化する言語だからです。

しかし、残念なことに、今はまだ喜ぶべき時ではありません。たとえこれらのルールの一部が時代とともに変化する可能性があるとしても、それはすべての人にとって無料ではないからです。言語は相互に理解できるものでなければならず、途中で簡単に作り上げることはできません。専門家は、いわゆる記述的アプローチを採用しており、言語の使い方を禁止するのではなく、言語の使い方を教えてくれます。 すべき それを使っていること。彼らは、大規模なコーパス、テキスト本体の統計分析を通じてこれを行い、どの形式が最も注目を集めているかを確認します。ここが興味深いところです。大規模な言語分析を行うと、よく知っていると思っていた主題について、知らなかったことを知ることができるからです。

なぜ私は計算言語学の発明者ではなかったのか

USB ハードドライブエンクロージャの上に置かれた Raspberry Pi モデル b
この埃っぽい Raspberry Pi とハードディスクは、約 10 年間テレビの後ろに置かれ、RSS フィードからのテキストを処理していました

私が言語分析を初めて知ったのは約 15 年前、非常に大規模な Web サイトの検索エンジンの可視性を向上させることに取り組んでいたときでした。これは当時の怪しい検索エンジン操作の危険な煙と鏡の世界ではなく、代わりにサイトのコンテンツを大幅に改善し、要するに人間と検索エンジンの両方にとってもっと興味深いものにするためにそこにいたのです。この取り組みでは、ちょっとしたテキスト分析が非常に役に立ちます。テキストをラングリングするためのいくつかの単純な PHP スクリプトが、いつの間にか完全なスイートになっていました。

私はそれがすでに分野であるとは知らずに、計算言語学の主題全体を自分で発明しました。今となってはその仕事が笑えるほど非効率であることを知っていますが、それは成果をもたらし、私とサイト所有者がどこで何をしているのかを知るのに役立ちました。間違ってた。

言語分析に興味を持ったので、それは長年にわたって私にとって心に残るプロジェクトの 1 つになりました。興味が増減するたびに時々戻ってきて、私のオリジナルのスイートがさらに大きく成長しました。より有用。それほど難しいことは何もないので、それについてここで書くのがポイントです。私にそれができるなら、あなたにもできるはずです。ですから、それを説明することに挑戦する価値があります。

分析用のテキストのコーパスを構築するには、まずテキストから始める必要があります。私は言語と同じくらい時系列データに特に興味があったので、見つけられる限り多くの RSS フィードをソースとして利用しました。これにより、分析に追加する新しいテキストが際限なく供給され、私の主力製品は、大きな USB ハード ドライブを備えた Raspberry Pi で、静かに 1 日の一部をストーリーの取得と処理に費やしています。

新しく取得したテキストに直面したら、最初のステップは何でしょうか?何よりもまず、無関係な HTML と Web サイトの不要なものを取り除きます。これは、Lynx にすべての面倒な作業を行う -dump コマンド ライン オプションがあることを発見するまで、ルールの大きな煩わしさでした。次に、句点や疑問符などの文の区切り文字で分割し、単語ごとに文を配列に分割します。その後、それを 1 語ずつ確認し、見つけたものをデータ ストアに処理します。

10 億分の 1 語を素早く取り出すにはどうすればよいでしょうか?

数千のデータ ポイントがある場合、データ ストレージに関しては多くのオプションがあります。たとえば SQL データベースは素晴らしいアイデアです。しかし、コーパスは巨大なサイズに成長し、通常の保存方法ではすぐに取り残されてしまいます。数十億の単語インスタンスを処理できる素晴らしいソフトウェアがあるかもしれませんが、私はそれを見つけられなかったので、ファイルシステムに組み込まれたものを選択しました。ファイルシステムのパスをクエリとして使用し、パスを入力するだけでクエリできる単語のディレクトリ ツリーを作成します。

2014 年初めの英国のニュースにおける「支出」と「削減」の出来事のグラフ
たくさんの小さな JSON ファイルで非常に迅速にグラフを作成できます

したがって、文中の単語を段階的に確認するとき、私はその頻度と連語、つまり一緒に現れる単語に興味を持ちます。したがって、単語ごとに、その出現を記録するための JSON ファイルを含むディレクトリを作成し、そのディレクトリ内に、対応する JSON ファイルを含む次の単語のサブディレクトリを作成します。したがって、たとえば、/neil/ ディレクトリ内の JSON を開いて「Neil」という単語の人気度を調べたり、/neil/armstrong/ で「Ne​​il Armstrong」というフレーズの人気度を調べたりすることができます。 /neil/armstrong/ と /neil/young/ の両方を調べることで、ニール アームストロングとヤングの相対的な出現を比較することもできました。このファイル システム アプローチの良い点は、サーバー側の処理スクリプトが PHP のままで非常にシンプルであり、クライアントはファイル システムからすべての JSON をリアルタイムで取得するブラウザーの Javascript にすることができることです。

マウスをクリックするだけで数十億語の英語を分析できる利点は、フレーズのどれがより適切であるか、一時的なフレーズが実際にどれほど人気が​​あるか、さらには次のような著名人の相対的な人気さえも簡単に確認できることです。政治家。それは、他人の言うことに依存することなく、自分自身の言語的真実を検証するツールを持っているようなもので、私の仕事においては非常に役立ちます。もちろん欠点もあります。たとえば、何百万ものサブディレクトリと小さな JSON ファイルからなるツリーを扱う作業は非常に面倒になります。中規模のデータ構造の tarball を作成するには数日かかります。つまり、tarball を新しいディスクに移動するには、ある程度の計画が必要です。

これは、Hackaday で個人プロジェクトについて説明するのに通常のやり方ではなかったかもしれませんが、これには私のハードウェア作品と同じくらい開発時間と技術的進化が含まれています。私の足跡をたどりたいのであれば、古い PHP と Javascript の整形していない混乱を公開するのは恥ずかしいと思いますが、その機能が上記でかなり詳しく説明されているため、ほとんどの人がそれを作成できると思います。あなたがそれに心を向ければ、あなた自身。そうでないとしても、この記事でコーパス アナライザーがどのように機能し、知らなかったことを教えてくれるのかについて理解していただければ幸いです。また、学校の先生の言うことをすべて聞かないようにという私のアドバイスに従っていただけると思います。

タイムスタンプ:

より多くの ハッカデイ