<br><br><div class="gmail_quote">On Mon, Jun 16, 2008 at 6:04 AM, Dan Staley &lt;<a href="mailto:dlstal2@uky.edu">dlstal2@uky.edu</a>&gt; wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
I actually just interfaced with the Sphinx project at one of the<br>
research positions I hold. &nbsp;It is actually a very well written interface<br>
(for the most part...there were a few things poorly documented and/or<br>
implemented) But anyway, I found the java version of the project (Sphinx<br>
4 <a href="http://cmusphinx.sourceforge.net/sphinx4/" target="_blank">http://cmusphinx.sourceforge.net/sphinx4/</a> ) to be pretty easy to<br>
build/interface with.</blockquote><div><br>Its great Dan that u got sphinx packages worked for you. I tried it but got some error.  However now a days i was concentrating on understanding their some libraries and trying to write my own optimized codes. I will definitely ping you in case of any help. <br>
</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
<br>
The benefit of using the HMMs and models and methods that Sphinx<br>
implements is that anyone in their programs should be able to specify a<br>
grammar (similar to a simplified regex) that they want to be recognized<br>
and then the interpreter should be able to be user independant...meaning<br>
anyone can speak the phrase into the phone and get the desired output.<br>
Speech training wouldn&#39;t be required. &nbsp;I found that once you set it up<br>
correctly, the Sphinx engine is very powerful, and usually identifies<br>
the spoken words no matter who says them (we found it even seemed to<br>
work decently well with a variety different accents).</blockquote><div>&nbsp;</div><div>This is good and in fact I will also try to implement this in the model. I will get the HMM models of words by training them from different speakers. This thing i have covered in my Design Document. <br>
<br>Thanks in advance...<br></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><font color="#888888"><br>
-Dan Staley<br>
</font><div><div></div><div class="Wj3C7c"><br>
On Sun, 2008-06-15 at 19:07 -0400, Ajit Natarajan wrote:<br>
&gt; Hello,<br>
&gt;<br>
&gt; I know nothing about speech recognition, so if the following won&#39;t work,<br>
&gt; please let me know (gently :) ).<br>
&gt;<br>
&gt; I understand that there is a project called Sphinx in CMU which attempts<br>
&gt; speech recognition. &nbsp;It seems pretty complex. &nbsp;I couldn&#39;t get it to work<br>
&gt; on my Linux desktop. &nbsp;I&#39;m not sure if it would work on an FR since it<br>
&gt; may need a lot of CPU horsepower and memory.<br>
&gt;<br>
&gt; I see a speech project on the OM projects page. &nbsp;To me, it seems like<br>
&gt; the project is attempting command recognition, e.g., voice dialing.<br>
&gt; However, it would be great if the FR can function as a rudimentary<br>
&gt; dictation machine, i.e., allow the user to speak and convert to text.<br>
&gt;<br>
&gt; Perhaps the following may work.<br>
&gt;<br>
&gt; 1. Ask the user to speak some standard words. &nbsp;Record the speech and<br>
&gt; &nbsp; &nbsp; establish the mapping from the words to the corresponding speech.<br>
&gt; &nbsp; &nbsp; It may even be good to maintain separate databases for different<br>
&gt; &nbsp; &nbsp; purposes, e.g., one for UNIX command lines, one for emails, and a<br>
&gt; &nbsp; &nbsp; third for technical documents.<br>
&gt;<br>
&gt; 2. The speech recognizer then functions similar to a keyboard in that it<br>
&gt; &nbsp; &nbsp; converts speech to text which it then enters into the application<br>
&gt; &nbsp; &nbsp; that has focus.<br>
&gt;<br>
&gt; 3. The user must speak word by word. &nbsp;The speech recognizer finds the<br>
&gt; &nbsp; &nbsp; closest match for the speech my checking against the recordings made<br>
&gt; &nbsp; &nbsp; in step 1 (and step 4). &nbsp;The user may need to set the database from<br>
&gt; &nbsp; &nbsp; which the match must be made.<br>
&gt;<br>
&gt; 4. If there is no close match, or if the user is unhappy with the<br>
&gt; &nbsp; &nbsp; selection made in step 3, the user can type in the correct word. &nbsp;A<br>
&gt; &nbsp; &nbsp; new record can be added to the appropriate database.<br>
&gt;<br>
&gt; The process may be frustrating for the user at first, but over time, the<br>
&gt; speech recognition should become better and better.<br>
&gt;<br>
&gt; The separate databases may be needed, for example, because the word<br>
&gt; period should usually translate to the symbol `.&#39; except when writing<br>
&gt; about time periods when it should translate to the word `period&#39;.<br>
&gt;<br>
&gt; I do not know what the storage requirements would be to maintain this<br>
&gt; database. &nbsp;I do not know if the closest match algorithm in step 3 is<br>
&gt; even possible. &nbsp;But if we could get a good dictation engine, that would<br>
&gt; be a killer app, in my opinion. &nbsp;No more typing! &nbsp;No more carpal tunnel<br>
&gt; injuries. &nbsp;No more having to worry about small on screen keyboards that<br>
&gt; challenge finger typing.<br>
&gt;<br>
&gt; Thanks.<br>
&gt;<br>
&gt; Ajit<br>
&gt;<br>
&gt;<br>
<br>
<br>
_______________________________________________<br>
Openmoko community mailing list<br>
<a href="mailto:community@lists.openmoko.org">community@lists.openmoko.org</a><br>
<a href="http://lists.openmoko.org/mailman/listinfo/community" target="_blank">http://lists.openmoko.org/mailman/listinfo/community</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Saurabh Gupta<br>Electronics and Communication Engg.<br>NSIT,New Delhi<br><br>