ちょっと技術的なお話

せっかくタイトルにAIと謳っているので、技術的なお話も少し。

webサイトからのデータ収集は、phantomjsというのを使っています。

ログインがあるサイトにもプログラムからログインできるヘッドレスブラウザというやつです。なれるまで時間かかりますが、慣れれば色々なサイトの自動収集が捗ります。AIにはデータが必要なので、大切な技術です。

次に、取得したHTMLをデータベース化するのですが、HTMLから、名前や年齢、掲示板タイトルなんかを取る処理が必要になります。これにはjsoapというのを使っていて、HTMLでも綺麗にパースしてくれました。

データは、とりあえずPostgreSQLに蓄積しています。今は簡単な集計しかしていないのですが、deeplearning4jが使える環境なので、話題の深層学習での画像解析や、テキスト解析も出来るようにはしています。

その解析結果ををBIツールで個人的に可視化して使っています。そのままの公開予定はありません。

こんな事やると、えろライフが捗るんだけどなー、なんてアイデアがありましたら送ってください!

余裕があったら実現検討してみますw

コメント

タイトルとURLをコピーしました